《数据挖掘(完整版)》笔记——最近邻分类器
最近邻分类器 1. 算法 2. 最近邻分类器的特征 决策树和基于规则的分类器是 积极学习方法 的例子,因为如果训练数据可用,衙门就开始学习从输入属性到类标号的映射模型。与之相反的策略是推迟对训练数据的建模,知道需要分类测试样例时再进行,采用这种策略的技术被称为 消极学习方法 消极学习方法的一个例子是Rote分类器,它记住整个训练数据,仅当测试实例的属性和某个训练样例完全匹配才进行分类 使用该方法更灵活的一个途径是找出和测试样例的属性相对接近的所有训练样例。给定样例 z z z 的k-近邻是指和 z z z 距离最近的k个数据点 1. 算法 一旦得到最近邻表,测试样例就会根据最近邻中的多数类进行分类: 多 数 表 决 : y ′ = a r g m a x v ∑ ( x i , y i ∈ D z ) I ( v = y i ) 多数表决:y' = \underset{v}{argmax} \sum_{(x_i,y_i \in D_z)}I(v=y_i) 多 数 表 决 : y ′ = v a r g ma x ∑ ( x i , y i ∈ D z ) I ( v = y i ) v v v 是类标号, y i y_i y i 是一个最近邻的类标号, I ( ⋅ ) I(\cdot) I ( ⋅ ) 是示性函数 每个近邻对分类的影响都一样,这使得算法对