李宏毅机器学习笔记09(Unsupervised Learning 01)
无监督学习 1、无监督学习的概念 什么叫无监督学习(输入都是无label的数据,没有训练集之说) 无监督学习的两大任务:“化繁为简”(聚类、降维)、“无中生有” 2、聚类Clustering(K-means、HAC) 3、降维Dimension Reduction(PCA) 1、无监督学习的概念 一、什么叫无监督学习 输入都是无label的数据,没有训练集之说,也就是只能从一些无label的数据中 自己寻找规律 二、无监督学习的两大任务:“化繁为简”(聚类、降维)、“无中生有” 2、聚类Clustering(K-means、HAC) 一、K-means算法 kmeans算法又名k均值算法。其 算法思想 大致为:先从样本集中随机选取 k 个样本作为 簇中心 ,并计算所有样本与这 k 个“簇中心”的 距离 ,对于每一个样本,将其划分到与其 距离最近 的“簇中心”所在的簇中,对于新的簇计算各个簇的新的“簇中心”。 根据以上描述,我们大致可以猜测到实现kmeans算法的主要几点: (1)簇个数 k 的选择 (2)初始化簇中心(可以从你的train data里面随机找K个 x x出来,就是你的k个center ) while(收敛——聚类结果不再变化) { (3)各个样本点到“簇中心”的 距离 (4