sklearn之kmeans
Kmeans工作原理 sklearn.cluster.KMeans 1.参数n_clusters n_clusters是KMeans中的k,表示着我们告诉模型我们要分几类。这是KMeans当中唯一一个必填的参数,默认为8类,当我们拿到一个数据集,如果可能的话,我们希望能够通过绘图先观察一下这个数据集的数据分布,以此来为我们聚类时输入的n_clusters做一个参考。 2.参数init & random_state & n_init:如何放置初始质心 1.init: 可输入"k-means++",“random"或者一个n维数组。这是初始化质心的方法,默认"k-means++”。输入"k-means++":一种为K均值聚类选择初始聚类中心的聪明的办法,以加速收敛。如果输入了n维数组,数组的形状应该是(n_clusters,n_features)并给出初始质心。 2.random_state: 控制每次质心随机初始化的随机数种子 3.n_init: 整数,默认10,使用不同的质心随机初始化的种子来运行k-means算法的次数。最终结果会是基于Inertia来计算的n_init次连续运行后的最佳输出 k-means++优化后的初始化质心位置方法,一般情况下优化过后找最优解迭代次数比随机的迭代次数少 3.参数max_iter & tol:让迭代提前停下来 1.max_iter: 整数