2.3 KiB
2.3 KiB
Word文档词频统计分析工具
这是一个用于分析Word文档词频的Python工具,支持中文分词、词频统计、可视化展示和结果导出。
功能特性
- 📖 读取Word文档(.docx格式)
- 🔤 中文文本分词(基于jieba)
- 📊 词频统计分析
- 📈 生成词云图和词频柱状图
- 📋 导出Excel分析报告
- 🚫 智能过滤停用词
安装依赖
在运行脚本之前,请先安装所需的Python包:
pip install -r requirements.txt
使用方法
1. 基本使用
将Word文档放在脚本同一目录下,然后运行:
python word_frequency_analyzer.py
2. 自定义目录
from word_frequency_analyzer import WordFrequencyAnalyzer
# 指定Word文档所在目录
analyzer = WordFrequencyAnalyzer('/path/to/your/word/documents')
results = analyzer.analyze_all_documents()
analyzer.print_results(results)
3. 单个文档分析
analyzer = WordFrequencyAnalyzer()
result = analyzer.analyze_single_document('your_document.docx')
输出文件
脚本运行后会生成以下文件:
词频分析结果.xlsx- Excel格式的详细分析报告词云图_[文档名].png- 每个文档的词云图词频图_[文档名].png- 每个文档的词频柱状图
分析结果包含
- 总词数统计
- 不重复词数统计
- 高频词排行榜(前20名)
- 词云可视化
- 词频柱状图
- Excel详细报告
支持的文档格式
- Microsoft Word (.docx)
注意事项
- 确保Word文档为.docx格式(不支持.doc格式)
- 脚本会自动过滤常见停用词和标点符号
- 词云图需要系统支持中文字体
- 建议在Python 3.7+环境下运行
自定义配置
修改停用词
可以在WordFrequencyAnalyzer类的_load_stop_words方法中添加或删除停用词。
调整分析参数
- 修改
get_top_words方法的top_n参数来改变高频词数量 - 调整词云图和柱状图的样式参数
故障排除
如果遇到字体相关错误,请确保系统安装了中文字体,或修改脚本中的字体路径。
macOS用户可以使用:
/System/Library/Fonts/PingFang.ttc/System/Library/Fonts/STHeiti Light.ttc
Windows用户可以使用:
C:/Windows/Fonts/simhei.ttfC:/Windows/Fonts/msyh.ttc