统计学基础知识
为理解下面的知识需要先区分好下面几个概念: 总体均值: \(u\) 总体标准差: \(σ\) 样本均值: \(u'\) 样本标准差: \(σ'\) 样本中符合条件A的占比: \(p'\) 是样本大小: \(n\) 总体大小: \(N\) 抽样 数据分析中,虽然数据越多越齐越好,可是受限于各类因素的制约,我们并不能获取全部的数据。比如Excel的性能限制,比如数据库不支持大文件导出、或者是无法全量进行的用户调研等。 抽样是一种应对方法,通过样本来推断总体,抽样结果提供的仅仅是相应总体特征的估计,「估计」这一点很重要。 抽样有很多方式,样本首要满足随机性。比如进行社会访谈,你不能只选择商场人流区,因为采访到的人群明显是同一类人群,反而会遗漏郊区和乡镇的人群,遗漏宅男,遗漏老人。 互联网产品中,抽样也无处不在,大名鼎鼎的AB测试就是一种抽样,选取一部分人群验证运营策略或者产品改进。通常筛选用户ID末尾的数字,比如末尾选择0~4,于是抽样出了50%的用户,这既能保证随机性,也能保证控制性。 毕竟抽样的目的是验证和检验,需要始终保证用户群体的完全隔离,不能用户一会看到老界面,一会看到改进后的新界面。以上也适用于推荐算法的冠军挑战,用户分群等。 至于放回抽样,分层抽样,在互联网的数据分析中用不太到,这里就略过了。 点估计 设总体 X 的分布函数形式已知, 但它的一个或多个参数为未知,