应用统计学
对类别数据要分类处理:
Bar chart复式条形图便于对比:
Pareto chart:对类别变量依据频数高低排列:
Pie chart:饼图用于一个样本,可以区分类别数据
doughnut chart:环形图用于多个样本,可以区别类别数据
顺序数据:通过计算cumulative percentages向上向下累计,这两者可有不同的解释
线图可以多类方便的放在一张图上,便于比较
对数值型数据要分组处理:
单变量分组:该变量必须是离散值且数量少
组距分组:
- 等距分组eg:10-20;20-30;30-40
- 异距分组eg:10-70;70-80;80-90;90-140,异距分组容易引起理解偏差,可以用频数密度来表达,避免理解偏差。
得到样本数n,通过以下公式计算得到组数K,根据组数K由{组距=( 最大值 - 最小值)÷ 组数}得到组距,最后绘制直方图,由直方图可看到点连成线之后的数据对称性。
由直方图得到的常见分布如下:
图例:
黄色:众数
红色:中位数
绿色:平均数
直方图Histogram:
1.样本量大用直方图可以反映出分布;
2.样本量小(小于75-100)会出现不稳定的情况
可以采用分不同组数目来看分布是不是一致来判断自己选择组数是否合适
当样本数为无穷大时,直方图上折线图变成PDF(PMF):probability density function概率密度函数,由PDF可推导得到CDF:cumulative distribution function分布函数。
茎叶图Stem-and-leaf plot针对样本量小的未分组数据,它的组距不能人为控制,通常是10或者10的最小公约数。
箱图可用于多类样本比较,如下图:
但是离群点对箱图影响大,可能造成misleading,可以使用公式对所有值进行筛选,选出离群点并去除离群点。
基于其他统计量的箱图:其中可以将四分位点换成任何需要的百分位数,即可以利用箱图来判断置信区间。
垂线图(drop-line)
两个变量之间的问题:
二维散点图(2D Scatterplots)
重叠散点图Overlay Scatter:
散点图矩阵Matrix Scatter
三个变量之间:气泡图bubble chart