[教程]揭秘Python高效读取子文件夹中所有CSV文件的秘密

发布于 2025-06-25 12:30:22

506

在Python中，读取子文件夹中的所有CSV文件是一个常见的需求，尤其是在处理数据分析和数据挖掘任务时。以下是一篇详细的指南，介绍如何高效地实现这一目标。1. 确定文件夹结构在开始之前，确保你的文件夹...

在Python中，读取子文件夹中的所有CSV文件是一个常见的需求，尤其是在处理数据分析和数据挖掘任务时。以下是一篇详细的指南，介绍如何高效地实现这一目标。

1. 确定文件夹结构

在开始之前，确保你的文件夹结构是明确的。例如，你可能有一个主文件夹，里面包含多个子文件夹，每个子文件夹中存放着CSV文件。

main_folder/
│
├── sub_folder1/
│ ├── file1.csv
│ └── file2.csv
│
├── sub_folder2/
│ ├── file3.csv
│ └── file4.csv
│
└── ...

2. 使用`os`模块遍历文件夹

Python的os模块提供了遍历文件夹和文件的方法。我们可以使用os.walk()来递归遍历主文件夹及其所有子文件夹。

import os
def find_csv_files(root_folder): csv_files = [] for root, dirs, files in os.walk(root_folder): for file in files: if file.endswith('.csv'): csv_files.append(os.path.join(root, file)) return csv_files

这段代码会返回一个包含所有CSV文件路径的列表。

3. 使用`pandas`读取CSV文件

pandas是一个强大的数据分析库，它可以轻松地读取CSV文件。我们可以使用pandas.read_csv()函数来读取文件。

import pandas as pd
def read_csv_files(file_paths): data_frames = [] for file_path in file_paths: data_frames.append(pd.read_csv(file_path)) return data_frames

这个函数会读取所有CSV文件，并将它们作为pandas的DataFrame对象返回。

4. 合并数据集（可选）

如果你需要将所有CSV文件合并为一个大的数据集，可以使用pandas.concat()函数。

def concatenate_data_frames(data_frames): return pd.concat(data_frames, ignore_index=True)

这个函数会合并所有的DataFrame对象，并返回一个合并后的DataFrame。

5. 高效读取大型CSV文件

当处理大型CSV文件时，直接一次性读取整个文件可能会导致内存不足。pandas提供了chunksize参数，允许你分块读取文件。

def read_large_csv_file(file_path): return pd.read_csv(file_path, chunksize=10000)

这个函数会返回一个可迭代的对象，你可以通过迭代来逐块处理数据。

6. 示例代码

以下是一个完整的示例，展示了如何使用上述函数来读取主文件夹中所有子文件夹的CSV文件，并将它们合并为一个大的数据集。

root_folder = 'main_folder'
csv_files = find_csv_files(root_folder)
data_frames = read_csv_files(csv_files)
combined_data_frame = concatenate_data_frames(data_frames)

7. 总结

通过使用os模块来遍历文件夹，结合pandas库的强大功能，你可以高效地读取子文件夹中的所有CSV文件。以上步骤和代码示例提供了一个基本的框架，你可以根据具体需求进行调整和扩展。

一个月内的热帖推荐