Word文档词频统计分析工具

这是一个用于分析Word文档词频的Python工具，支持中文分词、词频统计、可视化展示和结果导出。

功能特性

📖 读取Word文档（.docx格式）
🔤 中文文本分词（基于jieba）
📊 词频统计分析
📈 生成词云图和词频柱状图
📋 导出Excel分析报告
🚫 智能过滤停用词

安装依赖

在运行脚本之前，请先安装所需的Python包：

pip install -r requirements.txt

使用方法

1. 基本使用

将Word文档放在脚本同一目录下，然后运行：

python word_frequency_analyzer.py

2. 自定义目录

from word_frequency_analyzer import WordFrequencyAnalyzer

# 指定Word文档所在目录
analyzer = WordFrequencyAnalyzer('/path/to/your/word/documents')
results = analyzer.analyze_all_documents()
analyzer.print_results(results)

3. 单个文档分析

analyzer = WordFrequencyAnalyzer()
result = analyzer.analyze_single_document('your_document.docx')

输出文件

脚本运行后会生成以下文件：

词频分析结果.xlsx - Excel格式的详细分析报告
词云图_[文档名].png - 每个文档的词云图
词频图_[文档名].png - 每个文档的词频柱状图

分析结果包含

总词数统计
不重复词数统计
高频词排行榜（前20名）
词云可视化
词频柱状图
Excel详细报告

支持的文档格式

Microsoft Word (.docx)

注意事项

确保Word文档为.docx格式（不支持.doc格式）
脚本会自动过滤常见停用词和标点符号
词云图需要系统支持中文字体
建议在Python 3.7+环境下运行

自定义配置

修改停用词

可以在WordFrequencyAnalyzer类的_load_stop_words方法中添加或删除停用词。

调整分析参数

修改get_top_words方法的top_n参数来改变高频词数量
调整词云图和柱状图的样式参数

故障排除

如果遇到字体相关错误，请确保系统安装了中文字体，或修改脚本中的字体路径。

macOS用户可以使用：

/System/Library/Fonts/PingFang.ttc
/System/Library/Fonts/STHeiti Light.ttc

Windows用户可以使用：

C:/Windows/Fonts/simhei.ttf
C:/Windows/Fonts/msyh.ttc

2.3 KiB Raw Blame History Unescape Escape