Scripts/word/README.md
2025-10-11 13:36:48 +08:00

2.3 KiB
Raw Blame History

Word文档词频统计分析工具

这是一个用于分析Word文档词频的Python工具支持中文分词、词频统计、可视化展示和结果导出。

功能特性

  • 📖 读取Word文档.docx格式
  • 🔤 中文文本分词基于jieba
  • 📊 词频统计分析
  • 📈 生成词云图和词频柱状图
  • 📋 导出Excel分析报告
  • 🚫 智能过滤停用词

安装依赖

在运行脚本之前请先安装所需的Python包

pip install -r requirements.txt

使用方法

1. 基本使用

将Word文档放在脚本同一目录下然后运行

python word_frequency_analyzer.py

2. 自定义目录

from word_frequency_analyzer import WordFrequencyAnalyzer

# 指定Word文档所在目录
analyzer = WordFrequencyAnalyzer('/path/to/your/word/documents')
results = analyzer.analyze_all_documents()
analyzer.print_results(results)

3. 单个文档分析

analyzer = WordFrequencyAnalyzer()
result = analyzer.analyze_single_document('your_document.docx')

输出文件

脚本运行后会生成以下文件:

  • 词频分析结果.xlsx - Excel格式的详细分析报告
  • 词云图_[文档名].png - 每个文档的词云图
  • 词频图_[文档名].png - 每个文档的词频柱状图

分析结果包含

  • 总词数统计
  • 不重复词数统计
  • 高频词排行榜前20名
  • 词云可视化
  • 词频柱状图
  • Excel详细报告

支持的文档格式

  • Microsoft Word (.docx)

注意事项

  1. 确保Word文档为.docx格式不支持.doc格式
  2. 脚本会自动过滤常见停用词和标点符号
  3. 词云图需要系统支持中文字体
  4. 建议在Python 3.7+环境下运行

自定义配置

修改停用词

可以在WordFrequencyAnalyzer类的_load_stop_words方法中添加或删除停用词。

调整分析参数

  • 修改get_top_words方法的top_n参数来改变高频词数量
  • 调整词云图和柱状图的样式参数

故障排除

如果遇到字体相关错误,请确保系统安装了中文字体,或修改脚本中的字体路径。

macOS用户可以使用

  • /System/Library/Fonts/PingFang.ttc
  • /System/Library/Fonts/STHeiti Light.ttc

Windows用户可以使用

  • C:/Windows/Fonts/simhei.ttf
  • C:/Windows/Fonts/msyh.ttc