阅读材料为 第四章。
开头先来一个总体内容的概括好了:
集中趋势:众数、中位数、平均数
离散程度:异众比率、四分位差、极差、平均差、方差或标准差、离散系数
分布的形状:偏态系数、峰态系数
集中趋势:
分类数据:
众数:一般情况下,只有在数据量较大的时候众数才有意义。
众数可能不存在,也可能有多个。
顺序数据:
分位数、中位数
中位数的位置:(n+1)/2
数值型数据:
平均数:简单平均数、加权平均数、几何平均数
简单平均数很简单就不说了。
根据分组数据计算的平均数称为加权平均数;工作中我们算1-9月的店均销售就是采用加权平均的,因为每个月的店铺数会有变化。用1-9月的销售额之和除以1-9月的店铺数之和。
几何平均数的主要应用是计算现象的平均增长率(当数据出现零值或负值时不宜使用)。
当所平均的各比率数值相差不大时,算术和几何平均的结果差别不大。
众数、中位数、平均数之间的关系:
当数据对称分布时,三者相等;
当数据左偏分布时,平均数被拉向左边,中位数也略偏左边,因此,平均数<中位数<众数
当数据右偏分布时,平均数被拉向右边,中位数也略偏右边,因此,众数<中位数<平均数
三者的应用场合:
众数:数据量大时适用;分类数据。
中位数:不受极端值影响,因此偏态分布时适用;顺序数据。
平均数:受极端值影响大,因此数据对称分布时适用;数值型数据。
集中趋势和离散程度之间的联系:
数据的离散程度越大,集中趋势的测度值对该组数据的代表性越差。
离散程度的测度值有:
异众比率(分类数据)
四分位差(顺序数据;两个四分位数的差,反映了中间50%数据的离散情况)
方差&标准差(常用,有量纲)&极差(简单粗暴,极易受极端值影响)&平均差(实际意义清楚,准确反映全体数据的离散情况)
离散系数:用于对比不同水平的不同样本的离散情况(标准差除以平均值)。
平均值&标准差铸造的终极武器:标准分数
计算方法:(数据-平均值)/标准差
用途:
①可以测度每个数据在该组数据中的相对位置
②可以用它来判断一组数据汇总是否有离群数据
③我们在对多个具有不同量纲的变量进行处理时,常常用标准分数对各变量进行标准化处理
---->经验法则:适用于对称分布的数据。三个数分别是 68%,95%,99%
---->切比雪夫不等式:适用于任何分布的数据。三个数分别是 75%,89%,94%
离散系数(相对离散程度)
计算方法:标准差除以平均值。(当平均数接近0时,离散系数的值趋于增大,此时必须慎重解释)
主要用来比较不同样本数据的离散程度。
数据分布形状的度量:偏态与峰态
偏态:若数据对称分布,则偏态系数为0;若大于1或小于-1,为高度偏态分布;若在0.5到1 或 -1到-0.5之间,为中等偏态分布。
峰态:若数据正态分布,则峰态系数为0;若大于0为尖峰分布,数据分布集中;若小于0为扁平分布,数据分布分散。
最后总结一下与以上概念相关的excel函数:
1.众数:mode(),若不含重复数据,会返回错误值
2.中位数:median()
3.四分位数:quartile.inc(array,quart)
quart=0,返回最小值;quart=1,返回第一个四分位数;quart=2返回中位数;quart=3,返回第二个四分位数;quart=4返回最大值
4.算术平均数:average()
5.几何平均数:geomean()
6.平均差:avedev()
7.标准差:stdev()
8.偏态系数:skew()
9.峰态系数:kurt()