1.算法介绍:
k近邻算法(k-NN)是一种简单、基本的分类与回归方法。算法描述如下:给定一个训练数据集,对于新给的一个样本,在训练数据中找到与该样本最相邻的k个实例,那么这k个实例多数属于哪个分类,就把该样本归类到哪个分类。
k近邻模型的三个基本要素――距离度量、k值确定、分类决策规则(一般是多数规则)。
首先,我们需要度量任何两个样本之间的距离,特征空间中2个实例点距离是2个实例点的相似程度的反映。
假设xi和xji=(xi(1)i(2), ... xi(n))Tj=(xj(1)j(2)j(n))Ti和xj的距离就是Lp(xi, xj) ,也叫做闵可夫斯基(H.Minkowski)距离。