[教程]揭秘Python高效读取CSV文件至NumPy的实用技巧

发布于 2025-06-22 12:11:33

847

在Python中，NumPy库是一个非常强大的工具，特别适合于数值计算和数据分析。NumPy提供了多种方法来读取CSV文件，这些方法既快速又高效。本文将详细介绍几种将CSV文件读取到NumPy数组中的...

在Python中，NumPy库是一个非常强大的工具，特别适合于数值计算和数据分析。NumPy提供了多种方法来读取CSV文件，这些方法既快速又高效。本文将详细介绍几种将CSV文件读取到NumPy数组中的实用技巧，并探讨如何处理不同的数据格式和特殊情况。

1. 使用`numpy.genfromtxt()`函数

numpy.genfromtxt()函数是NumPy库中用于读取文本文件的一种方法，特别适合于读取CSV文件。它可以处理包含数值和非数值数据的CSV文件。

示例代码：

import numpy as np
data = np.genfromtxt('data.csv', delimiter=',', skip_header=1)
print(data)

在这个例子中，delimiter=','指定了CSV文件的分隔符是逗号，skip_header=1表示跳过第一行（通常为标题行）。

注意事项：

如果CSV文件中包含非数值数据，需要指定正确的数据类型。
可以使用missing_values参数来指定缺失值。

2. 使用`numpy.loadtxt()`函数

numpy.loadtxt()函数主要用于读取纯文本文件中的数值数据。它比genfromtxt()更简单，因为它不处理非数值数据。

示例代码：

import numpy as np
data = np.loadtxt('data.csv', delimiter=',')
print(data)

在这个例子中，如果CSV文件中没有非数值数据，可以直接使用loadtxt()。

注意事项：

必须确保文件中的所有数据都是数值类型。
可以通过dtype参数指定数据类型。

3. 使用`numpy.recfromcsv()`函数

numpy.recfromcsv()函数可以将CSV文件读取为结构化数组（record array），其中每一列可以有不同的数据类型。

示例代码：

import numpy as np
data = np.recfromcsv('data.csv')
print(data)

注意事项：

结构化数组对于处理具有不同数据类型的列特别有用。
需要指定每个字段的数据类型。

4. 高效处理大型CSV文件

对于大型CSV文件，使用NumPy读取数据时需要注意内存使用。以下是一些提高效率的建议：

尽可能使用较小的数据类型，例如使用float32而不是float64。
使用dtype参数在读取时指定数据类型，以减少内存占用。
如果文件非常大，可以考虑分块读取文件，而不是一次性读取整个文件。

示例代码：

import numpy as np
chunk_size = 10000 # 定义每个块的大小
data_chunks = [] # 存储每个块的数据
with open('large_data.csv', 'r') as file: reader = np.genfromtxt(file, delimiter=',', skip_header=1, dtype=[('col1', 'int'), ('col2', 'float')]) for chunk in np.array_split(reader, reader.size // chunk_size): data_chunks.append(chunk)
# 合并所有块
large_data = np.concatenate(data_chunks)
print(large_data)

在这个例子中，我们使用np.array_split()函数将大型CSV文件分成多个块，然后逐个读取和处理这些块。

5. 总结

NumPy提供了多种方法来读取CSV文件，每种方法都有其特点和适用场景。通过合理选择方法并注意内存管理，可以高效地将CSV文件读取到NumPy数组中，为后续的数据分析和处理打下坚实的基础。

一个月内的热帖推荐

[教程]揭秘Python高效读取CSV文件至NumPy的实用技巧

1. 使用numpy.genfromtxt()函数

示例代码：

注意事项：

2. 使用numpy.loadtxt()函数

示例代码：

注意事项：

3. 使用numpy.recfromcsv()函数

示例代码：

注意事项：

4. 高效处理大型CSV文件

示例代码：

5. 总结

csdn大佬

1. 使用`numpy.genfromtxt()`函数

2. 使用`numpy.loadtxt()`函数

3. 使用`numpy.recfromcsv()`函数