# Word文档词频统计分析工具 这是一个用于分析Word文档词频的Python工具,支持中文分词、词频统计、可视化展示和结果导出。 ## 功能特性 - 📖 读取Word文档(.docx格式) - 🔤 中文文本分词(基于jieba) - 📊 词频统计分析 - 📈 生成词云图和词频柱状图 - 📋 导出Excel分析报告 - 🚫 智能过滤停用词 ## 安装依赖 在运行脚本之前,请先安装所需的Python包: ```bash pip install -r requirements.txt ``` ## 使用方法 ### 1. 基本使用 将Word文档放在脚本同一目录下,然后运行: ```bash python word_frequency_analyzer.py ``` ### 2. 自定义目录 ```python from word_frequency_analyzer import WordFrequencyAnalyzer # 指定Word文档所在目录 analyzer = WordFrequencyAnalyzer('/path/to/your/word/documents') results = analyzer.analyze_all_documents() analyzer.print_results(results) ``` ### 3. 单个文档分析 ```python analyzer = WordFrequencyAnalyzer() result = analyzer.analyze_single_document('your_document.docx') ``` ## 输出文件 脚本运行后会生成以下文件: - `词频分析结果.xlsx` - Excel格式的详细分析报告 - `词云图_[文档名].png` - 每个文档的词云图 - `词频图_[文档名].png` - 每个文档的词频柱状图 ## 分析结果包含 - 总词数统计 - 不重复词数统计 - 高频词排行榜(前20名) - 词云可视化 - 词频柱状图 - Excel详细报告 ## 支持的文档格式 - Microsoft Word (.docx) ## 注意事项 1. 确保Word文档为.docx格式(不支持.doc格式) 2. 脚本会自动过滤常见停用词和标点符号 3. 词云图需要系统支持中文字体 4. 建议在Python 3.7+环境下运行 ## 自定义配置 ### 修改停用词 可以在`WordFrequencyAnalyzer`类的`_load_stop_words`方法中添加或删除停用词。 ### 调整分析参数 - 修改`get_top_words`方法的`top_n`参数来改变高频词数量 - 调整词云图和柱状图的样式参数 ## 故障排除 如果遇到字体相关错误,请确保系统安装了中文字体,或修改脚本中的字体路径。 macOS用户可以使用: - `/System/Library/Fonts/PingFang.ttc` - `/System/Library/Fonts/STHeiti Light.ttc` Windows用户可以使用: - `C:/Windows/Fonts/simhei.ttf` - `C:/Windows/Fonts/msyh.ttc`