一、用图表示数据
- 定量变量的图表示(直方图、盒形图、茎叶图、散点图)
类型 | 表示 | 优点 | 缺点 | 用途 |
---|---|---|---|---|
直方图 | 横轴为若干个等宽度的空间,纵轴表示各个区间的频数 | 体现的样本的频率分布,大致估计总体的分布;容易表示大量数据 | 无法显示原始数据 | 看数据各个部分的分布情况 |
盒形图 | 横轴为类别,盒子表示数据最小值、最大值、上下四分位点以及离群点 | 可以看出数据的分布情况以及离群点 | 无法显示原始数据 | 看数据各个部分的分布情况 |
茎叶图 | 数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面 | 从统计图上没有原始数据信息的损失;茎叶图中的数据可以随时记录,随时添加,方便记录与表示 | 只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据;数据量过大不方便显示 | 数据量不多时需要同时观看数据的分布情况与原数据 |
散点图 | 每个点代表一个观测值,横纵坐标分别代表观测值相对于横纵坐标的取值 | 快速发现多个变量间的主要相关性 | 适合看两个变量之间的关系(使用气泡图可以增加变量,气泡的颜色大小可以定义为变量,但容易使图显得混乱) | 比较跨类别的聚合数据 |
- 定性的图表示(饼图和条形图)
类型 | 表示 | 优点 | 缺点 | 用途 |
---|---|---|---|---|
饼图 | 有许多扇形组成的圆,扇形大小比例等于各个类别的频数或相关数量的比例 | 描述比例比较直观 | 不适合描述类别比较多的情况 | 需要了解各个类别的比例情况,且类别数量不多 |
条形图 | 横坐标代表各个类别,纵坐标代表各个类别的数量 | 可以看到各个类别的数量 | 无法看出各个类别所占的比例 | 用于定性变量需要了解各个类别的数量情况时 |
二、用数字表示数据
- 位置统计量(均值、众数、中位数、上下四分位数)
类别 | 算法 | 优点 | 缺点 | 使用 |
---|---|---|---|---|
均值 | 所有观测值求和之后除以观测值总数 | 表现所有数据的平均水平 | 易受极端值影响 | 定量描述无极端值的数据的平均水平 |
中位数 | 数据按顺序排列时最中间的数,奇数个数据:最中间的数,偶数个数据:最中间的两个数的平均数 | 不受各个极端值的影响 | 不能反映所有数据的一般水平 | 有极端值时 |
众数 | 样本中出现最多的数 | 不受个别极端值的影响 | 各个类别数据数量差异不大时不具有代表性 | 各个类别的数量有明显差异时可以代表平均水平 |
- 尺度统计量
类型 | 公式 | 特点 |
---|---|---|
极差 | 极大值-极小值 | |
方差 | s^2 = Σ [(xi - x̅)2]/n - 1 | 反应数据的集中情况 |
标准差s | 方差开根号 | 反应数据的集中情况 |
标准误差 | s/n^0.5 | 标示来自不同样本均值的标准差 |
注:标准差越大,数据观测值越分散。
3. 数据的标准得分
比较均值和标准差不同的数据时将数据标准化之后再比较
z=(观察分数-平均分)/标准差
来源:https://www.cnblogs.com/DA-fighting/p/12636825.html