中国大学mooc上北理工的人工智能之模式识别课程,图片及知识点出自此课程
模式识别是人工智能中的一个重要领域
1.定义
模式识别:根据特征对不同类别的样本进行分类
模式识别的核心为分类器
我们把通过分类器模型(算法)从样本中采集出能代表此样本的数据称为特征。若将一个样本的特征比喻成一个点,则许许多多不同类别的样本特征点就构成了一个样本空间。在样本空间中,我们根据特征之间的相似度来划分类别,特征相似度高的样本被判别为同一类
2.分类依据
特征空间里的点可以表示为向量形式,此时我们使用距离(e.g.欧式距离)或非距离(e.g.汉明距离)的方式来度量相似度
若特征空间为集合的形式,相似度以其拓扑结构划分,则使用另外的方式进行度量
3.紧致性准则
模式识别的分类要遵循紧致性准则
所谓紧致性准则,指的是,类内相似度要远大于类间相似度,即不同类别之间的“距离”要尽可能大,同一类的“距离”要尽可能小,以便于划分
在一定程度上增加特征维度,可以提高分类器的性能,因为更多的维度可以让系统学习到更细节的东西,分类理应更细致。但是盲目增加特征维度,却会导致“特征灾难”。
特征灾难,指的是,系统计算过高的特征维度时所面临的算力限制、性能下降问题。导致特征灾难的根本原因是,样本不足。
提取越高维度的特征,样本之间的细节就越被放大,样本之间的距离也就越大,使得同一类别的样本也被打散,样本的紧致性就下降了,性能就变差了
所以,为了避免特征灾难的问题,我们可以同步增加样本数量,减少特征维度(降维),提高每一维特征在表示样本时的效能
来源:https://blog.csdn.net/qq_43523725/article/details/102753789