[教程]Python轻松转换数据为0 1矩阵：技巧解析与实战案例

csdn大佬

发布于 2025-07-08 12:30:15

1353

引言在机器学习和数据科学领域，数据预处理是至关重要的步骤。其中，将数据转换为0 1矩阵（也称为独热编码或一位编码）是一种常见的数据转换方法。本文将详细介绍如何在Python中实现这一转换，并提供一些实...

引言

在机器学习和数据科学领域，数据预处理是至关重要的步骤。其中，将数据转换为0 1矩阵（也称为独热编码或一位编码）是一种常见的数据转换方法。本文将详细介绍如何在Python中实现这一转换，并提供一些实用的技巧和实战案例。

一、独热编码简介

独热编码（One-Hot Encoding）是一种将分类变量转换为机器学习算法可处理的数值向量的方法。在这种编码方式中，每个类别都会对应一个二进制位，如果某个类别存在，则对应的位为1，否则为0。

二、Python实现独热编码

Python中，我们可以使用pandas库的get_dummies()函数轻松实现数据的独热编码。

1. 安装pandas库

pip install pandas

2. 导入pandas库

import pandas as pd

3. 创建示例数据

data = {'color': ['red', 'green', 'blue', 'red', 'green', 'blue']}
df = pd.DataFrame(data)

4. 使用`get_dummies()`函数进行独热编码

df_encoded = pd.get_dummies(df, columns=['color'])
print(df_encoded)

输出结果：

 color_red color_green color_blue
0 1 0 0
1 0 1 0
2 0 0 1
3 1 0 0
4 0 1 0
5 0 0 1

三、实战案例：使用独热编码进行机器学习

以下是一个使用独热编码进行机器学习的实战案例。

1. 导入所需的库

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

2. 加载数据

data = {'color': ['red', 'green', 'blue', 'red', 'green', 'blue', 'red', 'green'], 'size': ['small', 'medium', 'large', 'small', 'medium', 'large', 'small', 'medium'], 'price': [10, 20, 30, 10, 20, 30, 10, 20]}
df = pd.DataFrame(data)

3. 使用`get_dummies()`函数进行独热编码

df_encoded = pd.get_dummies(df, columns=['color', 'size'])

4. 划分训练集和测试集

X = df_encoded.drop('price', axis=1)
y = df_encoded['price']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

5. 使用逻辑回归模型进行训练

model = LogisticRegression()
model.fit(X_train, y_train)

6. 评估模型性能

score = model.score(X_test, y_test)
print(f"Model accuracy: {score:.2f}")