Scripts/word/README.md
2025-10-11 13:36:48 +08:00

99 lines
2.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Word文档词频统计分析工具
这是一个用于分析Word文档词频的Python工具支持中文分词、词频统计、可视化展示和结果导出。
## 功能特性
- 📖 读取Word文档.docx格式
- 🔤 中文文本分词基于jieba
- 📊 词频统计分析
- 📈 生成词云图和词频柱状图
- 📋 导出Excel分析报告
- 🚫 智能过滤停用词
## 安装依赖
在运行脚本之前请先安装所需的Python包
```bash
pip install -r requirements.txt
```
## 使用方法
### 1. 基本使用
将Word文档放在脚本同一目录下然后运行
```bash
python word_frequency_analyzer.py
```
### 2. 自定义目录
```python
from word_frequency_analyzer import WordFrequencyAnalyzer
# 指定Word文档所在目录
analyzer = WordFrequencyAnalyzer('/path/to/your/word/documents')
results = analyzer.analyze_all_documents()
analyzer.print_results(results)
```
### 3. 单个文档分析
```python
analyzer = WordFrequencyAnalyzer()
result = analyzer.analyze_single_document('your_document.docx')
```
## 输出文件
脚本运行后会生成以下文件:
- `词频分析结果.xlsx` - Excel格式的详细分析报告
- `词云图_[文档名].png` - 每个文档的词云图
- `词频图_[文档名].png` - 每个文档的词频柱状图
## 分析结果包含
- 总词数统计
- 不重复词数统计
- 高频词排行榜前20名
- 词云可视化
- 词频柱状图
- Excel详细报告
## 支持的文档格式
- Microsoft Word (.docx)
## 注意事项
1. 确保Word文档为.docx格式不支持.doc格式
2. 脚本会自动过滤常见停用词和标点符号
3. 词云图需要系统支持中文字体
4. 建议在Python 3.7+环境下运行
## 自定义配置
### 修改停用词
可以在`WordFrequencyAnalyzer`类的`_load_stop_words`方法中添加或删除停用词。
### 调整分析参数
- 修改`get_top_words`方法的`top_n`参数来改变高频词数量
- 调整词云图和柱状图的样式参数
## 故障排除
如果遇到字体相关错误,请确保系统安装了中文字体,或修改脚本中的字体路径。
macOS用户可以使用
- `/System/Library/Fonts/PingFang.ttc`
- `/System/Library/Fonts/STHeiti Light.ttc`
Windows用户可以使用
- `C:/Windows/Fonts/simhei.ttf`
- `C:/Windows/Fonts/msyh.ttc`