摘要:异常值是影响统计数据质量的一个非常重要的因素,一直以来,我国的统计界以及社会各界均对此问题
给予很高的关注。所以,近年来有关异常值的理论探讨一直是个热点问题。但是目前研究的重点一直放在统计法
律制度的健全以及统计工作程序完善等方面。虽然这两点确实能提高统计数据的质量,但对于已经形成的统计数
据,在进行统计分析之前,我们更关注的是统计数据的误差问题,即所提供的统计数据与客观的社会经济现象实
际的数量特征之间的差距问题。异常值的存在,使得统计分析的误差大大增大,小则出现差错,大则可能发生事
故,甚至可能会导致严重的宏观决策失误。因此,在利用已得数据进行统计分析之前,必须对异常值进行探测和
检验。
关键词:异常值 定义 方法
一、概述
这样的数据,它们与数据一般模式不一致,或者说与大多数样相比有些不一样。我们称这样的数据为异常数据,
对异常数据的处理在某些领域很有价值,例如在网络安全领域,可以利用异常数据挖掘来分析网络中的异常行
为;在金融领域异常数据挖掘可以识别信用卡的欺诈交易、股市的操控行为、会计信息的虚假报价、欺诈贷款
等。
是异常数据,也就是异常数据定义的问题。其二,用什么方法来从给定的数据集中将异常数据提取出来。
二、异常数据的定义
是有其更深层次的必然原因,它产生于完全不同的机制。
差范围内,满足内在规律的数据就是正常数据,而不满足内在规律的数据就是异常数据。这种数据间的内在规律
可以根据数据本身的特点从位置关系、函数关系、规则关系、序列关系等方面来考查。
(1)
表现在一起的趋势,团结在一个或者多个核心的周围,而那些异常数据则表现得离群,他们总是离所有的核心都
很远。
(2)
附近,而那些异常数据则距离曲线比较远。
(3)
该规则的结论成立,而如果某个数据具有该规则关系但不能是该结论成立,那么他就是异常数据规则的一般形式为
据。
三、异常挖掘的常用方法
同类型的挖掘方法。从技术来源看,这些方法可以划分为基于统计的方法、基于距离的方法、基于偏离的方法和
基于聚类的方法。
(1)
性来确定异常。首先对给定的数据集假设一个概率分布模型,然后在某个显著水平上,确定数据集的拒绝域或者
接受域,拒绝域是时出现概率很小的区间,如果数据落在此区间,则判定为异常数据。
常有效,异常点的含义也非常明确。
(2)
普遍的方法。基于距离的方法的基本思想是以距离的大小来检测小模式,异常点是那些被认为没有足够的邻居的
点。他可以述为数据集N中,至少有P个对象和对象O的距离大于d,则对象O是一个带参数P和d的基于距离的异常
点。
(3)
距离的方法会出现问题,因此提出了基于密度模型的局部异常点挖掘算法。
邻域内的密度可以用包含固定数据点个数的邻域半径或者指定半径邻域中包含的数据点数来描述。
(4)
过分的偏离,则该数据被认为是异常点。现有的基于偏离的方法主要有序列异常技术和OLAP数据看立体方法。序
列异常技术的核心是要构建一个相异度函数,对于一个包含了很多样本的数据集,如果样本间的相似度较高,相
异度函数的值就比较小,反之,如果样本间的相异度越大,相异度函数的值就越大(例如方差就是满足这种要求
的函数)。OLAP数据立方体方法利用在大规模的多维数据中采用数据立方体确定反常区域,如果一个立方体的单
元值显著不同于根据同居模型得到的期望值,则该单元值被认为是一个异常点。
(5)
行聚类分析,将数据集划分为多个簇,然后选择那些离簇的质心比较远的样本作为异常点。
四、基于统计的异常检测方法:检测一元正态分布中的异常点
布、参数分布 (如均值或方差)、期望异常点的数目及(置信度区间)
用户指定的分布的参数,由数据创建。例如如果假定数据具有高斯分布,则基本分布的均值和标准差可以通过计
算数据的均值和标准差来估计,然后可以估计每个对象在该分布下的概率。
来源:https://www.cnblogs.com/cl1024cl/p/6205065.html