[教程]揭秘Python高效统计词频，轻松导出至TXT文件！

csdn大佬

发布于 2025-07-10 09:30:34

612

在处理文本数据时，统计词频是一项基础且重要的任务。Python作为一种功能强大的编程语言，提供了多种方法来实现这一功能。本文将详细介绍如何使用Python高效统计词频，并将结果导出至TXT文件。1. ...

在处理文本数据时，统计词频是一项基础且重要的任务。Python作为一种功能强大的编程语言，提供了多种方法来实现这一功能。本文将详细介绍如何使用Python高效统计词频，并将结果导出至TXT文件。

1. 准备工作

在开始之前，请确保您的计算机上已安装Python环境。以下是实现词频统计所需的Python库：

collections：用于统计词频。
re：用于正则表达式匹配，以便更精确地处理文本。

您可以通过以下命令安装这些库：

pip install collections re

2. 读取文本文件

首先，我们需要读取待处理的文本文件。以下是一个示例代码，用于读取名为example.txt的文件：

def read_file(file_path): with open(file_path, 'r', encoding='utf-8') as file: content = file.read() return content
file_path = 'example.txt'
text = read_file(file_path)

3. 清洗文本数据

在统计词频之前，我们需要对文本数据进行清洗。以下是一些常见的清洗步骤：

转换为小写：确保统计结果不受大小写影响。
移除标点符号：去除文本中的标点符号，以便更准确地统计词频。
分词：将文本分割成单词。

以下是一个示例代码，用于清洗文本数据：

import re
def clean_text(text): text = text.lower() # 转换为小写 text = re.sub(r'[^\w\s]', '', text) # 移除标点符号 words = text.split() # 分词 return words
cleaned_words = clean_text(text)

4. 统计词频

使用collections.Counter类可以轻松统计词频。以下是一个示例代码，用于统计词频：

from collections import Counter
word_counts = Counter(cleaned_words)

现在，word_counts变量包含了所有单词及其对应的词频。

5. 导出结果至TXT文件

最后，我们将统计结果导出至TXT文件。以下是一个示例代码，用于导出结果：

def export_to_txt(word_counts, file_path): with open(file_path, 'w', encoding='utf-8') as file: for word, count in word_counts.items(): file.write(f'{word}: {count}\n')
export_path = 'word_counts.txt'
export_to_txt(word_counts, export_path)

现在，您可以在word_counts.txt文件中查看统计结果。

总结

本文介绍了如何使用Python高效统计词频，并将结果导出至TXT文件。通过以上步骤，您可以轻松处理文本数据，并得到有价值的词频统计结果。希望本文对您有所帮助！

一个月内的热帖推荐