引言在Python编程中,数据筛选与统计分析是数据处理中至关重要的环节。掌握高效的数据筛选和统计分析方法,能够帮助开发者从大量数据中快速提取有价值的信息。本文将详细介绍Python中数据筛选和统计分析...
在Python编程中,数据筛选与统计分析是数据处理中至关重要的环节。掌握高效的数据筛选和统计分析方法,能够帮助开发者从大量数据中快速提取有价值的信息。本文将详细介绍Python中数据筛选和统计分析的常用方法,帮助读者轻松掌握数据处理技巧。
Pandas是Python中进行数据分析和处理的基础库,提供了强大的数据处理功能。
import pandas as pd
# 读取CSV文件
data = pd.read_csv('data.csv')
# 查看数据概览
print(data.head())# 筛选年龄大于30岁的数据
filtered_data = data[data['age'] > 30]# 筛选年龄在25到35岁之间的数据
filtered_data = data[(data['age'] >= 25) & (data['age'] <= 35)]# 筛选城市为北京的记录
filtered_data = data[data['city'] == '北京']query方法# 使用query方法筛选年龄大于30岁的记录
filtered_data = data.query('age > 30')apply方法# 使用apply方法对数据进行自定义筛选
def custom_filter(row): return row['age'] > 30 and row['city'] == '北京'
filtered_data = data[apply(custom_filter, data)]# 计算年龄的平均值、标准差、最大值、最小值
print(data['age'].mean(), data['age'].std(), data['age'].max(), data['age'].min())# 按城市分组计算年龄的平均值
print(data.groupby('city')['age'].mean())from scipy.stats import ttest_1samp
# 使用t检验方法进行参数估计
t_stat, p_value = ttest_1samp(data['age'], 30)
print('t-statistic:', t_stat, 'p-value:', p_value)from scipy.stats import ttest_ind
# 使用t检验方法进行假设检验
t_stat, p_value = ttest_ind(data[data['group'] == 'A']['age'], data[data['group'] == 'B']['age'])
print('t-statistic:', t_stat, 'p-value:', p_value)Matplotlib是Python中进行数据可视化的基础库。
import matplotlib.pyplot as plt
# 绘制折线图
plt.plot(data['age'], data['salary'])
plt.title('Age vs Salary')
plt.xlabel('Age')
plt.ylabel('Salary')
plt.show()# 绘制散点图
plt.scatter(data['age'], data['salary'])
plt.title('Age vs Salary')
plt.xlabel('Age')
plt.ylabel('Salary')
plt.show()Seaborn是基于Matplotlib的一个高级可视化库,提供更加丰富的图表类型。
import seaborn as sns
# 绘制条形图
sns.barplot(x='city', y='age', data=data)
plt.title('Age Distribution by City')
plt.xlabel('City')
plt.ylabel('Age')
plt.show()# 绘制热力图
sns.heatmap(data.corr(), annot=True, cmap='coolwarm')
plt.title('Correlation Heatmap')
plt.show()通过本文的学习,相信读者已经掌握了Python数据筛选和统计分析的常用方法。在实际应用中,灵活运用这些方法,能够帮助开发者从大量数据中快速提取有价值的信息,为业务决策提供有力支持。