我们常常遇到一些这样的名词,比如说SVM(支持向量机),贝叶斯,k临近法。这些都是分类器,去查找这些名词时,你会找到一大推的数学公式,这瞬间劝退我这种数学不是太好的人,下面简单谈一下我的理解;
书上定义:在机器学习中,分类器作用是在标记好类别的训练数据基础上判断一个新的观察样本所属的类别。
什么意思:我们从一个简单的k临近法来说,也就是我们的KNN算法;
其原理很简单,就是取一个点,找到离这个点最近的n个点,看哪一个类别最多,就预测那一个类别。
我们需要找到蓝星
的所属类别,它要么属于红色类
要么属于绿色类
。算法KNN中的K
指的是某点的K个用来投票的邻居,少数服从多数。K个邻居中投票最多的属性代表该点的属性。在本例子中我们将K设置为3,我们会给蓝星
画一个圈围住最近的K=3个点。
我们看到蓝星
最近的三个邻居都是红色类
,所以我们可以认为蓝星的类别是红色类
。
这就是KNN算法,我们从这个算法中就可以理解分类的概念。
1:分类是根据已有的数据来对未知的数据进行分类,也就是说我们需要有数据库。
2.对已有的数据库用一系列的算法来进行分类,也就是我们所说的训练样本,我们先要知道我们已有的训练样本中各个数据的分类;
3.在对未知的样本进行分类,怎么分类呢?在已知的训练样本基础上,根据训练样本的特征,使用一些数学公式来对未知样本划分。
基本的分类器概念理解清楚了,要想进一步深入,可参考下面博文: