数据的描述统计

有些话、适合烂在心里 提交于 2020-04-05 16:58:03

一、用图表示数据

  1. 定量变量的图表示(直方图、盒形图、茎叶图、散点图)
类型 表示 优点 缺点 用途
直方图 横轴为若干个等宽度的空间,纵轴表示各个区间的频数 体现的样本的频率分布,大致估计总体的分布;容易表示大量数据 无法显示原始数据 看数据各个部分的分布情况
盒形图 横轴为类别,盒子表示数据最小值、最大值、上下四分位点以及离群点 可以看出数据的分布情况以及离群点 无法显示原始数据 看数据各个部分的分布情况
茎叶图 数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面 从统计图上没有原始数据信息的损失;茎叶图中的数据可以随时记录,随时添加,方便记录与表示 只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据;数据量过大不方便显示 数据量不多时需要同时观看数据的分布情况与原数据
散点图 每个点代表一个观测值,横纵坐标分别代表观测值相对于横纵坐标的取值 快速发现多个变量间的主要相关性 适合看两个变量之间的关系(使用气泡图可以增加变量,气泡的颜色大小可以定义为变量,但容易使图显得混乱) 比较跨类别的聚合数据
  1. 定性的图表示(饼图和条形图)
类型 表示 优点 缺点 用途
饼图 有许多扇形组成的圆,扇形大小比例等于各个类别的频数或相关数量的比例 描述比例比较直观 不适合描述类别比较多的情况 需要了解各个类别的比例情况,且类别数量不多
条形图 横坐标代表各个类别,纵坐标代表各个类别的数量 可以看到各个类别的数量 无法看出各个类别所占的比例 用于定性变量需要了解各个类别的数量情况时

二、用数字表示数据

  1. 位置统计量(均值、众数、中位数、上下四分位数)
类别 算法 优点 缺点 使用
均值 所有观测值求和之后除以观测值总数 表现所有数据的平均水平 易受极端值影响 定量描述无极端值的数据的平均水平
中位数 数据按顺序排列时最中间的数,奇数个数据:最中间的数,偶数个数据:最中间的两个数的平均数 不受各个极端值的影响 不能反映所有数据的一般水平 有极端值时
众数 样本中出现最多的数 不受个别极端值的影响 各个类别数据数量差异不大时不具有代表性 各个类别的数量有明显差异时可以代表平均水平
  1. 尺度统计量
类型 公式 特点
极差 极大值-极小值
方差 s^2 = Σ [(xi - x̅)2]/n - 1 反应数据的集中情况
标准差s 方差开根号 反应数据的集中情况
标准误差 s/n^0.5 标示来自不同样本均值的标准差

注:标准差越大,数据观测值越分散。
3. 数据的标准得分
比较均值和标准差不同的数据时将数据标准化之后再比较
z=(观察分数-平均分)/标准差

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!