常规异常值检测方式

╄→гoц情女王★ 提交于 2019-11-28 19:23:53
##正态假设检验
参考资料:https://blog.csdn.net/cyan_soul/article/details/81236124

###正态分布,可考虑采用3西格玛准则

#####非正态分布则考虑使用箱线图,计算分位数确定上下边界

##使用numpy中的percentile计算分位数
a = np.arange(15)

##计算四分之一分位数、四分之三分位数、中位数
Q1 = np.percentile(a, 25)
Q3 = np.percentile(a, 75)
median = np.percentile(a, 50)

上边界 = Q3 + 1.5(Q3- Q1)
下边界 = Q3 - 1.5(Q3- Q1)

#####绘制箱线图
参考资料:
##pandas自带
https://www.cnblogs.com/wwxbi/p/9032248.html

##seaborn
http://seaborn.pydata.org/examples/horizontal_boxplot.html

##计算均值标准差、分位数,主要针对标准正态分布
参考资料:https://blog.csdn.net/lanchunhui/article/details/80381367
from scipy.stats import norm
norm.cdf(3) - norm.cdf(-3) ##0.9973002039367398
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!