四分位数

二 数据探索

蓝咒 提交于 2019-11-28 16:37:05
1 数据质量分析 数据质量分析是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。其主要任务是检查原始数据中是否存在脏数据: (1)缺失值 (2)异常值(outliers) (3)不一致的值 (4)重复数据及含有特殊符号的数据 1.1 缺失值分析 1.2 异常值分析 异常值是指样本中数值明显偏离其余观测值的个别值,也称为离群点。 (1)简单统计量分析 先对变量做描述性统计,检查数据是否合理。常用的统计量是最大、最小值。 (2)3σ 原则 (3)箱型图分析 1.3 一致性分析 数据不一致是指数据中存在矛盾、不相容。 2 数据特征分析 2.1 分布分析 定量数据:频率分布表、频路分布直方图、茎叶图 定性分类数据:饼图、条形图 定量数据的分布分析 选择“组数”和“组宽” (1)求极差 (2)确定组距与组数 (3)确定分点 (4)列出频率分布表 (5)绘制频率分布直方图 主要原则: (1)各组间互斥 (2)各组必须包含所有数据 (3)各组组宽相等 定性数据分布分析 对于定性变量,常根据变量的分类类型进行分组,可以采用饼图和条形图描述定性变量的分布。 2.2 对比分析 对比分析是指比较两个相互联系的指标,从数量上展示、说明研究对象规模、水平、速度,以及各种关系是否协调,适用于指标间的横纵向比较、时间序列比较分析。对比分析主要形式有: (1)绝对数值比较:通过绝对数对比,寻找差异;

箱形图和小提琴图

梦想的初衷 提交于 2019-11-27 04:50:20
箱形图(Box-plot) 又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图,因形状如箱子而得名。它能显示出一组数据的最大值、最小值、中位数、及上下四分位数。 箱形图绘制须使用常用的统计量,能提供有关数据位置和分散情况的关键信息,尤其在比较不同的母体数据时更可表现其差异。 箱形图的绘制主要包含六个数据节点,需要先将数据从大到小进行排列,然后分别计算出它的上边缘,上四分位数,中位数,下四分位数,下边缘,还有一个异常值。 计算过程: 计算上四分位数(Q3),中位数,下四分位数(Q1) 计算上四分位数和下四分位数之间的差值,即四分位数差(IQR, interquartile range)Q3-Q1 绘制箱线图的上下范围,上限为上四分位数,下限为下四分位数。在箱子内部中位数的位置绘制横线。 大于上四分位数1.5倍四分位数差的值,或者小于下四分位数1.5倍四分位数差的值,划为异常值(outliers)。 异常值之外,最靠近上边缘和下边缘的两个值处,画横线,作为箱线图的触须。 极端异常值,即超出四分位数差3倍距离的异常值,用实心点表示;较为温和的异常值,即处于1.5倍-3倍四分位数差之间的异常值,用空心点表示。 为箱线图添加名称,数轴等 分位数 根据其将数列等分的形式不同可以分为中位数,四分位数,十分位数、百分位数等等。四分位数作为分位数的一种形式