聚类
聚类 :就是将一个对象的集合分成几个簇,每个簇之间的对象不相似,但是簇内对象相似。可以认为是“物以类聚”。 从这个简单的描述中,可以看出聚类的 关键是如何度量对象间的相似性。较为常见的用于度量对象的相似度的方法有距离、密度等。 1.分层次聚类法 思路:寻找距离最近的两个样本进行结合。 (1)有N个样本集Z n {Z 1 ,Z 2 ......Z N } (2)聚成K类(事先定好K) [1] k=1, Ci={Zi}, i=1,2,...,N [2] if k=K then END [3] 找到Ci与Cj之间的距离d(Ci, Cj)最小的一对 [4] Ci和Cj合成一个类Ci, 并计算新的Ci的中心 [5] 去除Cj, k=k-1. goto [2] 2.最简单的聚类 相似性尺度(距离)阈值,不需要事先给定K。 有N个样本,Zs={Z1, Z2, ..., ZN} 给定一个阈值T。 任取一个样本,例如Z1,把Z1作为第一个类的中心,Z1=Z1 然后依次取Zi(i=2,3,...,N),计算Z1与Zi的距离D1i 若D1i≤T,则判定 Zi属于 Z1为中心的那个类; 若D1i>T,则把 Zi作为新的类中心 Z2。 然后对剩下的样本 Zi分别计算与 Z1,Z2的距离D1i,D2i 若其中较小者≤T,则判定 Zi属于较小的那一类 否则,就把 Zi作为新的一个类的中心 Z3 如此,继续...