[教程]轻松掌握Python技巧：TXT文件高效合并去重，告别重复数据烦恼

csdn大佬

发布于 2025-07-20 21:30:17

170

引言在数据处理过程中，经常需要将多个TXT文件合并，并且去除重复的数据。这个过程虽然看似简单，但如果处理不当，可能会耗费大量的时间和精力。本文将介绍如何使用Python轻松实现TXT文件的合并与去重，...

引言

在数据处理过程中，经常需要将多个TXT文件合并，并且去除重复的数据。这个过程虽然看似简单，但如果处理不当，可能会耗费大量的时间和精力。本文将介绍如何使用Python轻松实现TXT文件的合并与去重，帮助你告别重复数据的烦恼。

合并TXT文件

1. 使用Python内置函数

Python的内置函数open()和readlines()可以轻松实现TXT文件的合并。

def merge_txt_files(file_list, output_file): with open(output_file, 'w') as outfile: for file in file_list: with open(file, 'r') as infile: outfile.writelines(infile.readlines())
# 示例：合并当前目录下所有TXT文件
merge_txt_files(['file1.txt', 'file2.txt', 'file3.txt'], 'merged_files.txt')

2. 使用`pandas`库

pandas是一个强大的数据分析库，它可以方便地处理多个文件合并。

import pandas as pd
def merge_txt_files_pandas(file_list, output_file): df_list = [pd.read_csv(file, sep='\t', header=None) for file in file_list] df_merged = pd.concat(df_list, ignore_index=True) df_merged.to_csv(output_file, sep='\t', index=False)
# 示例：合并当前目录下所有TXT文件
merge_txt_files_pandas(['file1.txt', 'file2.txt', 'file3.txt'], 'merged_files.csv')

去重

1. 使用Python内置函数

通过排序和过滤，可以去除重复的数据。

def remove_duplicates(file_input, file_output): with open(file_input, 'r') as infile, open(file_output, 'w') as outfile: seen = set() for line in infile: stripped_line = line.strip() if stripped_line not in seen: seen.add(stripped_line) outfile.write(line)
# 示例：去除合并后的TXT文件中的重复数据
remove_duplicates('merged_files.txt', 'merged_files_unique.txt')

2. 使用`pandas`库

pandas的drop_duplicates()函数可以方便地去除重复数据。

import pandas as pd
def remove_duplicates_pandas(file_input, file_output): df = pd.read_csv(file_input, sep='\t', header=None) df_unique = df.drop_duplicates() df_unique.to_csv(file_output, sep='\t', index=False)
# 示例：去除合并后的TXT文件中的重复数据
remove_duplicates_pandas('merged_files.csv', 'merged_files_unique.csv')

总结

通过本文的介绍，相信你已经掌握了使用Python合并TXT文件和去除重复数据的方法。在实际应用中，可以根据自己的需求选择合适的方法，提高数据处理效率。

一个月内的热帖推荐

[教程]轻松掌握Python技巧：TXT文件高效合并去重，告别重复数据烦恼

引言

合并TXT文件

1. 使用Python内置函数

2. 使用pandas库

去重

1. 使用Python内置函数

2. 使用pandas库

总结

csdn大佬

2. 使用`pandas`库

2. 使用`pandas`库