[教程]告别重复烦恼！Python轻松实现CSV文件去重，一步到位，数据更精准！

csdn大佬

发布于 2025-11-29 18:30:23

引言在处理CSV文件时，数据重复是一个常见的问题。重复的数据不仅会占用额外的存储空间，还会影响数据分析的准确性。本文将介绍如何使用Python轻松实现CSV文件的去重，确保您的数据更加精准。原理分析去...

引言

在处理CSV文件时，数据重复是一个常见的问题。重复的数据不仅会占用额外的存储空间，还会影响数据分析的准确性。本文将介绍如何使用Python轻松实现CSV文件的去重，确保您的数据更加精准。

原理分析

去重的基本原理是通过比较每一行数据的唯一标识符，将重复的行过滤掉。对于CSV文件，常用的唯一标识符可以是某一列或多列的组合。

环境准备

在开始之前，请确保您已经安装了Python环境。以下代码示例将使用Python内置的库来实现去重功能，无需额外安装包。

代码实现

以下是一个简单的Python脚本，用于读取CSV文件，去重，并保存到新的CSV文件中。

import csv
def remove_duplicates(input_file, output_file, key_columns): """ 去除CSV文件中的重复数据。 :param input_file: 输入CSV文件的路径。 :param output_file: 输出去重后CSV文件的路径。 :param key_columns: 用于去重的列名列表。 """ seen = set() with open(input_file, mode='r', encoding='utf-8') as infile, \ open(output_file, mode='w', encoding='utf-8', newline='') as outfile: reader = csv.DictReader(infile) fieldnames = reader.fieldnames writer = csv.DictWriter(outfile, fieldnames=fieldnames) writer.writeheader() for row in reader: key = tuple(row[col] for col in key_columns) if key not in seen: seen.add(key) writer.writerow(row)
# 使用示例
input_csv = 'input.csv' # 输入CSV文件路径
output_csv = 'output.csv' # 输出去重后CSV文件路径
key_cols = ['column1', 'column2'] # 用于去重的列名列表
remove_duplicates(input_csv, output_csv, key_cols)

参数说明

input_file: 输入CSV文件的路径。
output_file: 输出去重后CSV文件的路径。
key_columns: 用于去重的列名列表。

代码解释

首先，我们定义了一个remove_duplicates函数，它接受三个参数：输入文件路径、输出文件路径和用于去重的列名列表。
在函数内部，我们使用csv模块来读取和写入CSV文件。
我们使用一个集合seen来存储已经出现过的唯一标识符，以实现去重。
通过遍历CSV文件的每一行，我们检查唯一标识符是否已存在于seen集合中。如果不存在，则将其添加到集合中，并将其写入新的CSV文件。

总结

通过以上方法，您可以轻松地使用Python对CSV文件进行去重处理，从而提高数据质量和分析的准确性。在实际应用中，您可以根据需要调整列名列表，以适应不同的数据结构和去重需求。

一个月内的热帖推荐