[教程]掌握Python，轻松实现聚类分析：5大方法助你挖掘数据洞察

发布于 2025-06-24 06:30:41

536

引言聚类分析是一种无监督学习方法，通过将相似的数据点分组，帮助我们发现数据中的隐藏模式和结构。Python作为一种功能强大的编程语言，拥有丰富的库和工具，可以轻松实现聚类分析。本文将介绍五种常用的聚类...

引言

聚类分析是一种无监督学习方法，通过将相似的数据点分组，帮助我们发现数据中的隐藏模式和结构。Python作为一种功能强大的编程语言，拥有丰富的库和工具，可以轻松实现聚类分析。本文将介绍五种常用的聚类方法，帮助读者掌握Python进行聚类分析的技巧。

一、K-Means算法

K-Means算法是一种基于距离的聚类算法，通过迭代将数据点分配到最近的质心形成的簇中。以下是K-Means算法的基本步骤：

初始化：随机选择K个数据点作为初始簇中心。
分配步骤：将每个数据点分配给距离其最近的簇中心。
更新步骤：计算每个簇的新的中心，即簇内所有数据点的均值。
迭代：重复步骤2和步骤3，直到簇中心不再变化或达到最大迭代次数。

以下是一个简单的K-Means聚类示例：

from sklearn.cluster import KMeans
import numpy as np
# 假设X是我们的数据集
X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])
# 设置簇的数量
kmeans = KMeans(n_clusters=2)
# 训练模型
kmeans.fit(X)
# 每个数据点所属的簇
labels = kmeans.labels_
# 打印结果
print(labels)

二、层次聚类

层次聚类是一种基于层次关系的聚类方法，通过构建一个树状的层次结构来表示数据点之间的聚类关系。层次聚类可以分为两种类型：

凝聚型层次聚类（自底向上）：每次将最相似的两个簇合并，直到所有数据点都被归为一个簇。
分裂型层次聚类（自上而下）：每次将一个簇分裂成两个簇，直到达到预定的簇数量。

以下是一个简单的层次聚类示例：

from sklearn.cluster import AgglomerativeClustering
import matplotlib.pyplot as plt
# 假设X是我们的数据集
X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])
# 设置簇的数量
n_clusters = 2
# 创建层次聚类对象
agglo = AgglomerativeClustering(n_clusters=n_clusters)
# 训练模型
agglo.fit(X)
# 打印结果
print(agglo.labels_)
# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=agglo.labels_)
plt.show()

三、DBSCAN算法

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一种基于密度的聚类算法，能识别任意形状的簇，并对噪声有很好的处理能力。以下是DBSCAN算法的基本步骤：

初始化：确定邻域半径eps和最小样本数min_samples。
标记核心点：如果一个点的邻域内包含至少min_samples个点，则该点为核心点。
标记边界点：如果一个点不是核心点，但它的邻域内包含核心点，则该点为边界点。
标记噪声点：如果一个点既不是核心点也不是边界点，则该点为噪声点。
构建簇：从核心点开始，递归地添加邻域内的点，形成簇。

以下是一个简单的DBSCAN聚类示例：

from sklearn.cluster import DBSCAN
import numpy as np
# 假设X是我们的数据集
X = np.array([[1, 2], [2, 2], [2, 3], [8, 7], [8, 8], [25, 80]])
# 设置邻域半径eps和最小样本数min_samples
eps = 0.5
min_samples = 2
# 创建DBSCAN聚类对象
dbscan = DBSCAN(eps=eps, min_samples=min_samples)
# 训练模型
dbscan.fit(X)
# 打印结果
print(dbscan.labels_)
# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=dbscan.labels_)
plt.show()

四、谱聚类

谱聚类是一种基于图论的聚类算法，利用数据的特征图（如拉普拉斯矩阵）进行聚类，适用于非凸形状的簇和高维数据。以下是谱聚类的基本步骤：

构建相似性矩阵：计算数据点之间的相似性，构建相似性矩阵。
计算特征值和特征向量：对相似性矩阵进行特征分解，得到特征值和特征向量。
选择特征向量：根据特征值选择前k个特征向量。
计算距离：计算特征向量之间的距离。
聚类：使用K-Means或其他聚类算法对距离进行聚类。

以下是一个简单的谱聚类示例：

from sklearn.cluster import SpectralClustering
import numpy as np
# 假设X是我们的数据集
X = np.array([[1, 2], [2, 2], [2, 3], [8, 7], [8, 8], [25, 80]])
# 设置簇的数量
n_clusters = 2
# 创建谱聚类对象
spectral = SpectralClustering(n_clusters=n_clusters)
# 训练模型
spectral.fit(X)
# 打印结果
print(spectral.labels_)
# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=spectral.labels_)
plt.show()

五、高斯混合模型（GMM）

高斯混合模型（Gaussian Mixture Model，GMM）是一种基于概率的聚类算法，假设数据由多个高斯分布组成。以下是GMM算法的基本步骤：

初始化：随机选择K个高斯分布的均值和方差。
估计参数：根据数据计算每个高斯分布的均值和方差。
拟合：计算每个数据点属于每个高斯分布的概率。
聚类：根据概率将数据点分配到对应的簇。

以下是一个简单的GMM聚类示例：

from sklearn.mixture import GaussianMixture
import numpy as np
# 假设X是我们的数据集
X = np.array([[1, 2], [2, 2], [2, 3], [8, 7], [8, 8], [25, 80]])
# 设置簇的数量
n_clusters = 2
# 创建GMM聚类对象
gmm = GaussianMixture(n_components=n_clusters)
# 训练模型
gmm.fit(X)
# 打印结果
print(gmm.predict(X))
# 绘制聚类结果
plt.scatter(X[:, 0], X[:, 1], c=gmm.predict(X))
plt.show()