16_k近邻算法总结

|▌冷眼眸甩不掉的悲伤 提交于 2019-12-02 16:45:53

1.k近邻算法属于分类算法

2.你的“邻居”来推断出你的类别

3.标准定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

4.计算距离公式:

  比如说,a(a1,a2,a3),b(b1,b2,b3),不一定非要是三维的哦!

  

 

 5.sklearn k-近邻算法API:

  n_neighbors:int,可选(默认= 5),k_neighbors查询默认使用的邻居数

  algorithm:{‘auto’,‘ball_tree’,‘kd_tree’,‘brute’},可选用于计算最近邻居的算法:‘ball_tree’将会使用 BallTree,‘kd_tree’将使用 KDTree。‘auto’将尝试根据传递给fit方法的值来决定最合适的算法。 (不同实现方式影响效率)

6.机器学习数据处理流程:

  1、数据集的处理

  2、分割数据集

  3、对数据集进行标准化

  4、estimator流程进行分类预测

7.k-近邻中k的取值大小:

  1、k值取多大?有什么影响?

    k值取很小:容易受异常点影响

    k值取很大:容易受最近数据太多导致比例变化

8.k-近邻算法优缺点:

  优点: 简单,易于理解,易于实现,无需估计参数,无需训练。

  缺点: 懒惰算法,对测试样本分类时的计算量大,内存开销大

  必须指定K值,K值选择不当则分类精度不能保证。

9.使用场景:小数据场景,几千~几万样本,具体场景具体业务去测试。(k近邻算法不太常用)

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!