数据标准化和离散化
数据的标准化 标准化数据的目的:将数据转化为同一量级,避免量级对结果产生不利的影响 数据转化的三种方式:离差标准化,标准差标准化,小数定标标准化 离差标准化 Ø 数据的整体分布情况并不会随离差标准化而发生改变,原先取值较大的数据,在做完离差标准化后的值依旧较大。 Ø 当数据和最小值相等的时候,通过离差标准化可以发现数据变为0。 Ø 若数据极差过大就会出现数据在离差标准化后数据之间的差值非常小的情况。 Ø 同时,还可以看出离差标准化的缺点:若数据集中某个数值很大,则离差标准化的值就会接近于0,并且相互之间差别不大。若将来遇到超过目前属性[min,max]取值范围的时候,会引起系统出错,这时便需要重新确定min和max。离差标准化的特点 # 1, 离差标准化 --- (x-min)/(max-min) # 将数据转化为【0,1】之间 # 容易受到异常点的影响 def deviation ( data ) : ''' 离差标准化 :param data: 传入数据 :return: 标准化之后的数据 ''' data = ( data - data . min ( ) ) / ( data . max ( ) - data . min ( ) ) return data 标准差标准化 标准差标准化也叫零均值标准化或分数标准化,是当前使用最广泛的数据标准化方法。 # 2,标准差标准化 --