引言残差图是数据分析和建模中常用的工具,特别是在回归分析中。它通过展示实际观测值与模型预测值之间的差异,帮助我们评估模型的有效性和数据质量。本文将深入探讨Python中如何创建和使用残差图,并提供解读...
残差图是数据分析和建模中常用的工具,特别是在回归分析中。它通过展示实际观测值与模型预测值之间的差异,帮助我们评估模型的有效性和数据质量。本文将深入探讨Python中如何创建和使用残差图,并提供解读技巧,帮助您轻松掌握数据质量分析之道。
在回归分析中,残差(Residual)是指实际观测值与模型预测值之间的差异。残差图则是将残差与预测值或某个解释变量进行可视化展示的图表。
Python中,我们可以使用matplotlib和statsmodels等库来创建残差图。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
# 生成示例数据
X = np.random.normal(0, 1, 100)
X = sm.add_constant(X) # 添加常数项
y = 3 * X[:, 1] + 2 + np.random.normal(0, 0.5, 100)
# 创建线性回归模型
model = sm.OLS(y, X).fit()
# 计算残差
residuals = model.resid
# 创建标准残差图
plt.scatter(model.fittedvalues, residuals)
plt.xlabel('Fitted values')
plt.ylabel('Residuals')
plt.title('Standard Residuals')
plt.show()# 案例数据
X = np.random.normal(0, 1, 100)
X = sm.add_constant(X)
y = 3 * X[:, 1] + 2 + np.random.normal(0, 0.5, 100)
# 创建线性回归模型
model = sm.OLS(y, X).fit()
# 计算残差
residuals = model.resid
# 创建标准残差图
plt.scatter(model.fittedvalues, residuals)
plt.xlabel('Fitted values')
plt.ylabel('Residuals')
plt.title('Standard Residuals')
plt.show()# 案例数据
X = np.random.normal(0, 1, 100)
X = sm.add_constant(X)
y = 3 * X[:, 1] + 2 + np.random.normal(0, 0.5, 100)
y[50:] += 5 # 故意引入模式
# 创建线性回归模型
model = sm.OLS(y, X).fit()
# 计算残差
residuals = model.resid
# 创建标准残差图
plt.scatter(model.fittedvalues, residuals)
plt.xlabel('Fitted values')
plt.ylabel('Residuals')
plt.title('Standard Residuals')
plt.show()残差图是数据分析和建模中不可或缺的工具。通过解读残差图,我们可以评估模型的有效性和数据质量。本文介绍了Python中创建和解读残差图的方法,并提供了案例说明。希望这些技巧能帮助您更好地掌握数据质量分析之道。