Crush Course 统计学
Ref : 十分钟速成课:统计学
1 - 什么是统计学
女士品茶:1920年左右剑桥英式下午茶时间一位女士认为牛奶先加或后加将影响茶的口感,因此将八杯茶打乱以区分口感,但为区分胡猜和舌头灵的界限,Fisher提出实验设计法使统计学严谨起来。
统计学领域:收集和分析数据的实践活动
统计学:数据的总合(summaries)
代理变量(Proxy):与所求结果相关但并非其自身
描述(Descriptive)统计学:研究数据中心位置(集中趋势的度量 即数据分布特征的度量)。压缩总结大量非直观数据以得出有用信息
推断(Inferential)统计:超出当前数据的推断,如简单抽样。不同问题有不同评判标准,亦有不同实验方法,具有不确定性,是否信服取决于主观意见
2 -- 数理思维
数理思维以不同的方式观察世界,进行超越本能和直觉的思考
科学计数法便于表示大数,但不利于大数理解:
方式一:由小及大,从1想象到1,000,000,000
方式二:带入语境,均分到每个人
方式三:转换单位成熟悉的度量方式
方式四:找参照物,以物体替代,比如一百万人能装下几个足球场
大数定律:群体或样本足够大时,小概率事件完全可能发生
应用:7.6亿人则罕见疾病便会出现,或出现连续两期彩票号码相同
极小数概率:不以物喜不以己悲,在不必要事情上节约时间,如中大乐透最终大奖概率3.206亿分之一,与在美国患埃博拉病毒概率相似
数理思维不仅在于理解数字,而更在于提出优秀的问题并以数字表示出来
Abraham Wald 统计飞机弹孔分布位置,并基于所有位置中弹几率相同的假设下,提出加强飞机没有弹孔的位置,考虑到数据的片面性即幸存者偏差
3 -- 数据的集中趋势
均值(mean)/算术平均数/数学期望:全部数据求和除以数据个数,描述数据整体正常情况而选择性忽略个体异常情况,具有误导性
正常数据:数据分布在两侧的频数基本相同,且大多数数据集中在中端(如正态分布)
分布(Distribution):每个数据在数据集中出现频率,即频数
异常值(outlier):极大或极小数据,极易改变平均值
中值(median):将数据从小到大进行排序时,最中间的数字
众数(mode):最大众的数据,体现个体对总体的支撑程度,样本足够大时更可信
双峰数据(Bimodel data):两个频繁出现的值,源自两个基群,如好评组与差评组,如午餐时间和晚餐时间
零偏(zero skew):均值与中数相同意味数据分布对称
偏态分布(skewed):存在极端值,但众数仍是最多的值,中值仍是最中间值,但平均数将偏向异常值方向
4 -- 数据的离散分布
离散程度(Dispersion):数据如何分布在平均数、中位数附近,以判断信息可信度
极差:最大占比与最小占比的差值显示两端间的差距,差距越大,离散程度越高
四分位距(InterQuarter Range, IQR):着重描绘中位数附近的数据,对目标受众描述更为精确,即找到核心受众
方差(variance):样本偏离趋势,计算方式--数据各点与均值相减所得进行平方再除以样本总数
样本方差估计原始数据总体方差将出现偏差,因此计算样本方差时样本数量减一才与总体方差相同(无偏估计)
标准差:方差开根号,样本平均与均值的偏离,采用标准差判断均值可靠性