其他

Python数据聚类实战：K-means算法从原理到应用

悠悠楠杉

2025-07-07

0 评论

144 阅读

正在检测是否收录...

07/07

Python数据聚类实战：K-means算法从原理到应用

数据聚类是机器学习中无监督学习的重要技术，它能将相似的数据自动归类。本文将深入浅出地讲解如何使用Python实现经典的K-means聚类算法，并展示实际应用场景。

一、聚类分析的核心价值

在日常工作中，我们经常遇到这样的场景：电商平台需要根据用户行为自动划分客户群体，新闻网站要对海量文章进行主题归类，这些正是聚类算法的用武之地。与分类不同，聚类不需要预先标记的训练数据，而是让算法自主发现数据的内在模式。

K-means作为最流行的聚类算法，以其简洁高效著称。它通过迭代计算将n个数据点划分到k个簇中，使得每个点都属于离其最近的均值（即中心点）对应的簇。

二、K-means算法原理拆解

初始化阶段：随机选择k个点作为初始质心
分配阶段：计算每个数据点到各质心的距离，将其分配到最近的簇
更新阶段：重新计算每个簇的质心（均值点）
迭代过程：重复2-3步直到质心不再显著变化

这个看似简单的过程，其实蕴含着深刻的数学原理——它本质上是在最小化簇内平方误差（SSE）。

三、Python实现完整代码

python
import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

生成模拟数据

np.random.seed(42)
X = np.concatenate([
np.random.normal(0, 1, (100, 2)),
np.random.normal(5, 1, (100, 2)),
np.random.normal(-5, 1, (100, 2))
])

K-means聚类

kmeans = KMeans(nclusters=3, randomstate=42)
kmeans.fit(X)
labels = kmeans.predict(X)
centroids = kmeans.clustercenters

可视化结果

plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', alpha=0.5)
plt.scatter(centroids[:, 0], centroids[:, 1], c='red', marker='X', s=200)
plt.title('K-means聚类结果展示')
plt.xlabel('特征1')
plt.ylabel('特征2')
plt.show()

四、实战中的关键技巧

K值选择：肘部法则（Elbow Method）是最常用的方法python
inertias = []
for k in range(1, 10):
kmeans = KMeans(nclusters=k) kmeans.fit(X) inertias.append(kmeans.inertia)

plt.plot(range(1, 10), inertias, marker='o')
plt.xlabel('簇数量')
plt.ylabel('SSE')

数据预处理：标准化处理至关重要
python from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X_scaled = scaler.fit_transform(X)
评估指标：轮廓系数（Silhouette Score）是常用指标
python from sklearn.metrics import silhouette_score score = silhouette_score(X, labels)

五、真实业务场景应用

在电商用户分群案例中，我们可以结合RFM模型：
- Recency（最近购买时间）
- Frequency（购买频率）
- Monetary（消费金额）

python

读取业务数据

import pandas as pd
df = pd.readcsv('userbehavior.csv')

特征工程

features = df[['recencydays', 'ordercount', 'totalspend']] features['recencydays'] = 1/features['recency_days'] # 转化正向指标

聚类分析

kmeans = KMeans(nclusters=4) df['segment'] = kmeans.fitpredict(features)

分析各群体特征

segmentanalysis = df.groupby('segment').agg({ 'recencydays': 'mean',
'ordercount': 'mean', 'totalspend': 'mean'
})

六、算法局限与改进方案

K-means虽然高效，但也有明显局限：
1. 对初始质心敏感——可尝试K-means++初始化
2. 仅适用于凸形簇——这时DBSCAN可能更合适
3. 需要预先指定K值——可结合层次聚类

进阶技巧：对于文本聚类，需要先进行TF-IDF向量化
python from sklearn.feature_extraction.text import TfidfVectorizer vectorizer = TfidfVectorizer(max_features=1000) X_text = vectorizer.fit_transform(documents)

聚类分析犹如数据世界中的"物以类聚"，通过Python的强大生态，我们可以轻松实现这一智能分类过程。掌握K-means只是第一步，在实际项目中还需要结合业务理解，选择合适的特征和评估方法，才能让算法真正产生商业价值。

朗读

版权属于：

至尊技术网

本文链接：

https://www.zzwws.cn/archives/32022/（转载时请注明本文出处及文章链接）

作品采用：

《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权

Python数据聚类实战：K-means算法从原理到应用

Python数据聚类实战：K-means算法从原理到应用

一、聚类分析的核心价值

二、K-means算法原理拆解

三、Python实现完整代码

生成模拟数据

K-means聚类

可视化结果

四、实战中的关键技巧

五、真实业务场景应用

读取业务数据

特征工程

聚类分析

分析各群体特征

六、算法局限与改进方案

人生倒计时