更新文档

2025-10-15 09:02:19 +08:00 · 2025-10-15 09:02:19 +08:00 · 6d5f0f6df8
commit 6d5f0f6df8
parent f8b39b149c
1 changed files with 28 additions and 17 deletions
--- a/word/README.md
+++ b/word/README.md
@ -7,9 +7,10 @@
 - 📖 读取Word文档（.docx格式）
 - 🔤 中文文本分词（基于jieba）
 - 📊 词频统计分析
- 📈 生成词云图和词频柱状图
+- 📈 生成词云图和词频柱状图（保存为文件，不弹窗显示）
 - 📋 导出Excel分析报告
- 🚫 智能过滤停用词
+- 🚫 智能过滤停用词与标点、数字
+- 📁 自动创建并使用`input`和`output`目录

 ## 安装依赖

@ -23,21 +24,28 @@ pip install -r requirements.txt

 ### 1. 基本使用

-将Word文档放在脚本同一目录下，然后运行：
+将Word文档（.docx）放入脚本同级目录下的`word/input`文件夹（首次运行会自动创建），然后运行：

 ```bash
 python word_frequency_analyzer.py
 ```

+运行完成后，所有输出会保存在`word/output`目录：
+- `词频分析结果.xlsx`：Excel格式的详细分析报告（包含汇总与各文档高频词，默认前30）
+- `词云图_[文档名].png`：每个文档的词云图
+- `词频图_[文档名].png`：每个文档的词频柱状图（默认显示前15）
+
 ### 2. 自定义目录

 ```python
 from word_frequency_analyzer import WordFrequencyAnalyzer

-# 指定Word文档所在目录
-analyzer = WordFrequencyAnalyzer('/path/to/your/word/documents')
+# 指定Word文档输入与结果输出目录
+analyzer = WordFrequencyAnalyzer(input_dir='/path/to/your/word/documents',
+                                 output_dir='/path/to/output')
 results = analyzer.analyze_all_documents()
 analyzer.print_results(results)
+analyzer.export_to_excel(results)  # 可选，未传入时默认保存到output目录
 ```

 ### 3. 单个文档分析
@ -49,9 +57,8 @@ result = analyzer.analyze_single_document('your_document.docx')

 ## 输出文件

-脚本运行后会生成以下文件：
-
- `词频分析结果.xlsx` - Excel格式的详细分析报告
+脚本运行后会在`output`目录生成以下文件：
+- `词频分析结果.xlsx` - Excel格式的详细分析报告（包含汇总与各文档高频词）
 - `词云图_[文档名].png` - 每个文档的词云图
 - `词频图_[文档名].png` - 每个文档的词频柱状图

@ -59,10 +66,9 @@ result = analyzer.analyze_single_document('your_document.docx')

 - 总词数统计
 - 不重复词数统计
- 高频词排行榜（前20名）
+- 高频词排行榜（打印前20名，Excel默认前30）
 - 词云可视化
- 词频柱状图
- Excel详细报告
+- 词频柱状图（默认显示前15）

 ## 支持的文档格式

@ -71,20 +77,25 @@ result = analyzer.analyze_single_document('your_document.docx')
 ## 注意事项

 1. 确保Word文档为.docx格式（不支持.doc格式）
-2. 脚本会自动过滤常见停用词和标点符号
-3. 词云图需要系统支持中文字体
-4. 建议在Python 3.7+环境下运行
+2. 脚本会自动过滤常见停用词、标点符号以及数字；分词时会过滤长度小于2的词
+3. 图表不在窗口显示，直接保存到`output`目录
+4. 词云图需要系统支持中文字体
+5. 建议在Python 3.7+环境下运行

 ## 自定义配置

 ### 修改停用词
-
 可以在`WordFrequencyAnalyzer`类的`_load_stop_words`方法中添加或删除停用词。

 ### 调整分析参数
+- 修改`get_top_words`方法的`top_n`参数来改变高频词数量（默认30）
+- 调整词云图和柱状图的样式参数（在`create_word_cloud`与`create_frequency_chart`中）
+- 可自定义`input`与`output`目录位置（构造函数入参）

- 修改`get_top_words`方法的`top_n`参数来改变高频词数量
- 调整词云图和柱状图的样式参数
+## 目录结构示例
+
+- 输入目录：`word/input`
+- 输出目录：`word/output`

 ## 故障排除