数据挖掘入门 -

℡╲_俬逩灬. 提交于 2019-12-02 19:36:17

一、概念性名词

1、数据的离散化

有些数据本身很大, 自身无法作为数组的下标保存对应的属性。如果这时只是需要这堆数据的相对属性, 那么可以对其进行离散化处理。当数据只与它们之间的相对大小有关,而与具体是多少无关时,可以进行离散化。

例如:

①原数据:1,999,100000,15;处理后:1,3,4,2;

②原数据:1234567、123456789、12345678、123456

排序:123456<1234567<12345678<123456789

=>1<2<3<4
那么这4个数可以表示成:2、4、3、1
 
2、概念分层
通过使用高层的概念(比如:老年,中年,青年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据。概念分层可以用树来表示,树的每一个节点代表一个概念(比如:按地区划分世界)
 
3、过拟合
一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!