[教程]轻松掌握Python高效读写CSV大文件技巧，告别文件处理难题

发布于 2025-06-22 11:45:51

149

CSV（逗号分隔值）文件是一种常见的文件格式，用于存储表格数据。在处理大量数据时，CSV文件尤为常见。然而，对于大型的CSV文件，读写操作可能会变得低效甚至难以完成。本文将介绍一些Python中高效读...

CSV（逗号分隔值）文件是一种常见的文件格式，用于存储表格数据。在处理大量数据时，CSV文件尤为常见。然而，对于大型的CSV文件，读写操作可能会变得低效甚至难以完成。本文将介绍一些Python中高效读写CSV大文件的技巧，帮助您告别文件处理难题。

1. 使用`csv`模块

Python标准库中的csv模块提供了读写CSV文件的功能。对于小文件，csv模块足以应对。但对于大文件，我们需要考虑性能优化。

1.1 读取大CSV文件

要读取大CSV文件，可以使用csv.reader对象。以下是一个简单的例子：

import csv
with open('large_file.csv', 'r', newline='') as csvfile: reader = csv.reader(csvfile) for row in reader: # 处理每一行数据 print(row)

1.2 写入大CSV文件

写入大CSV文件时，使用csv.writer对象。以下是一个例子：

import csv
with open('large_file.csv', 'w', newline='') as csvfile: writer = csv.writer(csvfile) writer.writerow(['Column1', 'Column2', 'Column3']) # 写入表头 for i in range(10000): # 假设有一万个数据行 writer.writerow([i, i+1, i+2])

2. 使用`pandas`库

pandas是一个强大的数据分析工具，它提供了更加高效和灵活的CSV文件读写方法。

2.1 读取大CSV文件

使用pandas读取大CSV文件时，可以利用chunksize参数分块读取：

import pandas as pd
chunk_size = 1000
for chunk in pd.read_csv('large_file.csv', chunksize=chunk_size): # 处理每个数据块 print(chunk)

2.2 写入大CSV文件

使用pandas写入大CSV文件时，可以一次性写入所有数据：

import pandas as pd
df = pd.DataFrame({'Column1': range(10000), 'Column2': range(10000, 20000), 'Column3': range(20000, 30000)})
df.to_csv('large_file.csv', index=False)

3. 使用`numpy`库

对于需要高性能计算的场景，可以使用numpy库进行CSV文件读写。

3.1 读取大CSV文件

使用numpy.genfromtxt可以高效地读取大型CSV文件：

import numpy as np
data = np.genfromtxt('large_file.csv', delimiter=',', skip_header=1)
print(data)

3.2 写入大CSV文件

使用numpy.savetxt可以高效地写入大型CSV文件：

import numpy as np
data = np.arange(10000).reshape(-1, 1)
np.savetxt('large_file.csv', data, delimiter=',', header='Column1', comments='')

4. 总结

通过以上技巧，您可以在Python中高效地读写大型CSV文件。在实际应用中，根据文件大小和数据处理需求选择合适的方法，可以大大提高文件处理的效率。

一个月内的热帖推荐