11 K-Means 原理及案例
非监督学习
- unsupervised learning (非监督学习) ,只有特征值,没有目标值
- 聚类: 主要方法 - k-means (K - 需要分成的类别数)
K-Means步骤
随机设置K个特征空间内的点作为初始的聚类中心 (红,绿,蓝) k=3 (给定)
对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类
中心点作为标记类别,形成3个族群分别计算这3个族群的平均值,把三个平均值与之前的三个旧中心进行比较。如果相同则结束聚类,如果不相同,把这三个平均点当做新的中心点,重复第二步。
Kmeans性能评估指标
注:对于每个点𝑖 为已聚类数据中的样本 ,𝑏_𝑖 为𝑖 到其它族群的所有样本的平均距离,𝑎_𝑖 为𝑖 到本身簇的距离平均值,最终计算出所有的样本点的轮廓系数平均值。
sc_i 取值
- 当b_i >>a_i 时, 外部距离远大于内部距离,为1, 完美情况。
- 当b_i <<a_i 时,内部距离远大于外部距离,为-1, 最差情况。
- 因此 取值范围为[-1,1] ,实际情况中超过0,或者0.1就已经算是不错的情况。
K-Means API
- sklearn.cluster.KMeans
- n_cluster=8 (开始的聚类中心数量)
- labels: 默认的标记类型(不是值),可以和真实值比较。
- sklearn.metrics.silhouette_score
- sklearn.metrics.silhouette_score(X, labels)
- 计算所有样本的平均轮廓系数
- X:特征值
- labels:被聚类标记的目标值
算法案例
instacart 把用户分成几个类别
Instacart Market Basket Analysis
探究: 用户对物品类别的喜好细分降维
products.csv 商品信息
order_products_prior.csv 订单与商品信息
orders.csv 用户订单信息
aisles.csv 商品所属的具体物品类别
import pandas as pd from sklearn.decomposition import PCA from sklearn.cluster import KMeans import matplotlib.pyplot as plt from sklearn.metrics import silhouette_score # 读取四张表的数据 prior = pd.read_csv("./data/instacart/order_products__prior.csv") products = pd.read_csv("./data/instacart/products.csv") orders = pd.read_csv("./data/instacart/orders.csv") aisles = pd.read_csv("./data/instacart/aisles.csv") # 合并四张表到一张表 (用户-物品类别) _mg = pd.merge(prior, products, on=['product_id', 'product_id']) _mg = pd.merge(_mg, orders, on=['order_id', 'order_id']) mt = pd.merge(_mg, aisles, on=['aisle_id', 'aisle_id']) # 交叉表(特殊的分组工具) cross = pd.crosstab(mt['user_id'], mt['aisle']) # 进行主成分分析 pca = PCA(n_components=0.9) data = pca.fit_transform(cross) # 把样本数量减少,减少运算量 x = data[:500] print(x.shape) #样本维数过多,后面随机抽取2个特征仅用于画图 # 假设用户一共分为四个类别 km = KMeans(n_clusters=4) km.fit(x) predict = km.predict(x) print(predict) # 显示聚类的结果 plt.figure(figsize=(10,10)) # 建立四个颜色的列表 colored = ['orange', 'green', 'blue', 'purple'] clr = [colored[i] for i in predict] plt.scatter(x[:, 1], x[:, 20], color=clr) # 随机抽取2个特征仅用于画图展示 plt.xlabel("1") plt.ylabel("20") plt.show() # 评判聚类效果,轮廓系数 print('K-Means轮廓系数为:'silhouette_score(x, predict)) # 一般都不超过0.7