为理解下面的知识需要先区分好下面几个概念:
- 总体均值:\(u\)
- 总体标准差:\(σ\)
- 样本均值:\(u'\)
- 样本标准差:\(σ'\)
- 样本中符合条件A的占比:\(p'\)
- 是样本大小:\(n\)
- 总体大小:\(N\)
抽样
数据分析中,虽然数据越多越齐越好,可是受限于各类因素的制约,我们并不能获取全部的数据。比如Excel的性能限制,比如数据库不支持大文件导出、或者是无法全量进行的用户调研等。
抽样是一种应对方法,通过样本来推断总体,抽样结果提供的仅仅是相应总体特征的估计,「估计」这一点很重要。
抽样有很多方式,样本首要满足随机性。比如进行社会访谈,你不能只选择商场人流区,因为采访到的人群明显是同一类人群,反而会遗漏郊区和乡镇的人群,遗漏宅男,遗漏老人。
互联网产品中,抽样也无处不在,大名鼎鼎的AB测试就是一种抽样,选取一部分人群验证运营策略或者产品改进。通常筛选用户ID末尾的数字,比如末尾选择0~4,于是抽样出了50%的用户,这既能保证随机性,也能保证控制性。
毕竟抽样的目的是验证和检验,需要始终保证用户群体的完全隔离,不能用户一会看到老界面,一会看到改进后的新界面。以上也适用于推荐算法的冠军挑战,用户分群等。
至于放回抽样,分层抽样,在互联网的数据分析中用不太到,这里就略过了。
点估计
设总体 X 的分布函数形式已知, 但它的一个或多个参数为未知, 借助于总体 X 的一个样本来估计总体未知参数的值的问题称为点估计问题.在统计学中,把总体的平均值标准差等称为总体参数,把样本的种种指标称为点估计量。
总体分布的参数在很多情况下是未知的,如均值\(μ\)、方差\(\sigma^2\)、泊松分布的\(λ\)、二项分布的比例\(π\),其它分布还会有更多的未知参数,需要通过样本进行相应的估计,这种估计值就是点估计。
对于总体均值\(μ\),\(\overline μ=\overline x\)
对于总体方差\(\sigma^2\),\(\overline \sigma^2 = S^2\);
对于总体比率\(π\),\(\overline \pi=\frac{x}{n}\),\(x\)是样本量为\(n\)的随机样本中特定事件发生的次数;
对于泊松总体的\(λ\),\(\overline λ=\overline x = \frac{1}{n} \sum_{i=1}^m x_i n_i\),其中\(n\)为总样本量,\(x_i\)为随机变量X的取值,\(n_i\)为每个取值出现的次数,\(n=\sum_{i=1}^m n_i\) 。
点估计的评价
无偏性:如果参数估计值的数学期望等于被估计的参数值,则称此估计量为无偏估计。与此相反则称为有偏估计。
需要注意的是,虽然\(S^2\)是\(\sigma^2\)的无偏估计,但\(S\)不是\(σ\)的无偏估计,其值要略小一些,尤其是小样本时,差距会非常明显。为解决这个问题,需要加以修正。
类似的,另一种估计\(σ\)的方法是用样本的极差\(R\),如果样本被分成若干子组,对于每组都可以先求组内极差\(R\),对于多组\(R\)可以求出其平均值\(\overline R\),然后将\(\overline R\)除以\(d_2\)。例如,如果每子组只含2个样品时,\(d_2\)=1.128,这样\(\overline R/1,128\)也是\(σ\)的无偏估计,但是也只考虑了组内的波动。用极差来估计标准差的方法在控制图、测量系统分析、过程能力分析等工具中广泛运用。
有效性:当一个参数有多个无偏估计时,估计方差越小则越有效。
相合性(一致性):如果随着样本量增大,参数的估计量趋于被估计的参数值。
区间估计
点估计是用于估计总体参数的样本统计量,我们不可能通过点估计就给出总体参数的一个精确值,更稳妥的方法是加减一个边际误差,通过一个区间值来估计。如何找到一个合适的估值范围,这是置信区间要解决的问题。
置信区间涉及两个问题,一个是置信水平,另一个是如何建立置信区间。所谓置信水平就是一个区间的信心,这个信心以概率来表示,绝大多数情况下取0.95,表示你对所估计的总体参数有95%的信心落在你所给的区间内。通常置信水平以\(1-α\)表示,\(α\)称为显著性水平,在后面假设检验中会重点介绍。
置信区间的建立就与中心极限定理和抽样分布有关了,在给定置信度的条件下,置信区间的宽度决定于抽样分布。下面介绍分别介绍单总体均值、方差和单总体比例的置信区间。更复杂的如双总体均值差、双总体比率差等置信区间的建立请参与相关教科书。
建立置信区间的意思是在设定的置信水平(如取0.95)下,总体参数落在这个区间的概率为0.95,大致的理解是如果抽100次样,建立100个置信区间,大约95个区间包含总体参数,约5个区间不包含总体参数(注意不是一定有5个,可能会多,也可能会少)。
单总体均值的置信区间
1、总体方差已知时,正态总体均值服从正态分布,即:
\[
Z = \frac{\overline x-\mu}{\sigma/\sqrt{n}} \sim N(0,1)
\]
取概率\(P(z_1 \leq Z \leq z_2 )=1-\alpha\),即在置信度为\((1-α)\)时,求出\(z_1\)和\(z_2\)两个值,通常选择置信区间左右对称,将\(α\)分成相等的两部分。这样\(z_1\)和\(z_2\)就分别等于\(z_{\alpha/2}\)和\(z_{1-\alpha/2}\)。如果\(α\)取0.05,则两个值分别为-1.96和1.96。将\(Z\)带入,则可以算出
\[
-z_{1-\alpha/2}=z_{\alpha/2} \leq \frac{\overline x-\mu}{\sigma/\sqrt n} \leq z_{1-\alpha/2}
\]
由此得出:
\[
\overline x - z_{1-\alpha/2} \frac{\sigma}{\sqrt n} \leq \mu \leq \overline x + z_{1-\alpha/2} \frac{\sigma}{\sqrt n}
\]
所以总体方差已知时,正态总体均值的置信区间为
\[
(\overline x - z_{1-\alpha/2} \frac{\sigma}{\sqrt n},\overline x + z_{1-\alpha/2} \frac{\sigma}{\sqrt n})
\]
2、总体方差未知,用样本标准差\(S\)来代替\(α\),这时正态总体的置信区间要用\(t-\)分布来计算,结论直接给出
\[
(\overline x - t_{1-\alpha/2} (n-1) \frac{S}{\sqrt n},\overline x + t_{1-\alpha/2} (n-1) \frac{S}{\sqrt n})
\]
通常来说,总体方差已知是很罕见的,因此大部分情况下我们都是用\(t-\)分布来计算置信区间。
3、在大样本情况下,依据中心极限定理,即使不是正态分布,其均值近似服从正态分布,通常样本量超过30就可以很好地近似。在这种情况下,可以得出大样本情况下均值的置信区间为
\[
(\overline x - z_{1-\alpha/2} \frac{S}{\sqrt n},\overline x + z_{1-\alpha/2} \frac{S}{\sqrt n}\]
单总体方差和标准差的置信区间
我们已经知道,样本方差与总体方差之比服从\(\chi^2\)-分布。因为\(\chi^2\)-分布是偏态分布,所以样本方差构成的总体方差置信区间是不对称的。这里正态总体标准差的置信区间为
\[
(\sqrt{\frac{(n-1)S^2}{\chi_{1-\alpha/2}^2(n-1)}},\sqrt{\frac{(n-1)S^2}{\chi_{\alpha/2}^2(n-1)}}
\]
单总体比例的置信区间
1.小样本情况下,不能用正态分布来近似,这时需要采用二项分布查表法来建立比率的置信区间。
记总体的比率为\(π\),样本的比率为\(p\),样本量为\(n\),我们知道总体服从二项分布\(B(x, n, π)\),我们用\(p\)来估计\(π\)。下面我们用一个例子来说明。
例:某医院用某药治疗脑动脉硬化症25例,其中显效者20例。问该药总显效率的95%置信区间为多少?
解:先计算\(p\),\(p=20/25=0.8\)
在置信水平为95%的条件下,我们需要查表找出\(n=25\),\(p=0.8\)时概率为0.025和0.975的\(\chi\)值,查表分别为15、16之间和23、24之间,取15和24,则总体比率\(π\)的置信区间为(15/25,24/25)=(0.6,0.96)。
2.大样本条件下的正态近似。当\(np\)和\(n(1-p)\)都大于5,且\(p\)取值适中(在0.1与0.9之间),则可以用正态分布来近似,即有
\[
p \sim N(p,\frac{p(1-p)}{n})
\]
由此构建的总体比率\(π\)的置信区间为:
\[
(p-z_{1-\alpha/2}\sqrt{\frac{p(1-p)}{n}},p+z_{1-\alpha/2}\sqrt{\frac{p(1-p)}{n}})
\]
置信区间的一些特点
1.在样本量相同的情况下,置信水平越高,置信区间越宽,同样的样本取置信水平0.9、0.95、0.99,则置信区间的宽度有这样的关系,CI(0.9)<CI(0.95)<CI(0.99),CI为Confidence Interval简写。这很好理解,你希望估计的信心越大,你就要把区间取得越宽。
2.在置信水平相同的条件下,样本量越大,置信区间越窄。这也很好理解,以均值的置信区间为例,决定置信区间宽度的是方差,而决定样本均值的方差与样本量成反比,即样本量越大,样本均值的方差越小。
假设检验
何为假设检验?假设检验是对总体参数做一个尝试性的假设,该尝试性的假设称为原假设,然后定义一个和原假设完全对立的假设叫做备选假设。假设检验就是通过样本数据对两个对立假设进行检验。
假设检验有一套成熟的方法论。从参数看,即可以计算平均数,也可以计算比率。从样本看,可以划分为单样本和双样本。单样本是从总体中抽取一部分进行样本均数和总体均数的比较。用户调研就是一个典型的单样本。从假设的条件看,有单侧检验(仅大于或小于的可能性)和双侧(仅不可能,包含大于和小于两种情况)检验。
如果备择假设为总体发生了特定方向的变化,则备择假设去”=”,为双侧方向,假设检验为双侧检验(又称双尾检验);如果备择假设为总体参数沿某一方向发生了变化,则备择假设含有”>”或“<”符号,备择假设为单向,假设检验为单侧检验(又称单尾检验),单侧检验又可进一步分为左侧单尾检验和右侧单尾检验。
根据备择假设的表述,假设检验的方向可以区分为:
- 备择假设$ H_1:θ=θ_0$, 为双侧假设,相应的假设检验称为双侧检验。
- 备择假设$ H_1:θ<θ_0$, 为左向假设,相应的假设检验称为左侧检验。
- 备择假设$ H_1:θ>θ_0$, 为右侧假设,相应的假设检验称为右侧检验。
数据分析中更多的情况是两组样本的比较,譬如男女用户的差异、用户群体的差异、以及产品AB测试的好与坏。因为篇幅原因,案例将重点放在双样本检验中,单样本检验熟悉点估计和区间估计后不难。当通过调研发现用户对产品评分下降了,接下来得讨论怎么做。产品经理们说:用户都傻兮兮的,它们对产品改版无法作出有效的判断,所以打分不算数,应该用一套更好的判断方法。
这时以产品改版后的活跃相关指标作为标准,其中一半用户不做改变,还是原始功能,成为对照组。另外一半用户体验新功能,为改进组,然后根据一段时间后的表现来判断改版好与不好。
活跃指标怎么设立很大程度影响如何用假设检验。既可以用均值法,即用户平均使用时长,或一段时间窗口内的平均活跃用户数来衡量,也可以用比例法,即某一时间内的活跃率。两者对应不同的公式,这里以平均活跃用户数举例。
假设检验首先需要设立原假设和备选假设,这里很容易犯错。在许多假设检验中,都以备选假设为出现点,它是希望得到支持的结论。因为之前用户调研的评分是下降的,于是检验更希望「拒绝」活跃上升或不变,从而得出下降的结论。
假设检验的目的在于否定H0,先假设H0正确,当结果表明H0错误,则接受H1;当结果无法表明H0错误,则说没有足够的证据说明H0是错误的。由于备择假设是研究者希望通过收集证据予以支持的假设,一般情况下,建立假设时,先建立备择假设再确定原假设。同样的问题因立场不同会有完全不同方向甚至反向的假设,但是在值的验证上“=”号一定是放在原假设上。
原假设\(H0\):活跃提升或不变;备选假设\(Ha\):活跃下降。如果样本结果得出拒绝\(H0\)的结论,那么可以做出\(Ha\)为真的推断。
不同的样本量和总体方差使用的检验方法不同,下图是不同情况下使用的检验方法。样本是否大于小于\(30\)是因为中心极限定理,在大样本量,且总体方差未知时,使用\(t\)检验还是\(z\)检验均可,因为\(t\)分布近似于\(z\)分布。我们使用\(z\)检验做双样本均值。
[不同的样本量和总体方差使用的检验方法]
将用户分割出两个群体体验产品功能,原始对照组和改进组都有50000用户。对照组的七日平均活跃数\(u_1=8500\),标准差为\(s_1=1250\),改进组的七日平均活跃数为\(u_2=8300\),标准差\(s_2=1240\)。当总体标准差未知时,有公式:
\[
z = \frac{\overline x_1-\overline x_2}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}
\]
计算出\(z=25.399\),远大于\(1.96\),\(p\)值无限接近0,几乎不可能发生,也就说明改进组的活跃上升或者等于是个极小概率事件,我们拒绝了原假设,接受了备选假设。若还想深入的查看活跃究竟下降了多少,使用双样本均值计算置信区间:
\[
(\overline x_1 - \overline x_2) \pm z_{\alpha/2} \sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}
\]
两个样本均值之差的95%置信区间为[183.566,215.433]。也就是说七日平均活跃数有95%的可能性下降了183~215之间。
假设检验具有两类错误。第一类错误,拒绝了实际上成立的,为“弃真”的错误,第二类错误,不拒绝实际上不成立的,为“存伪”的错误。
卡方检验
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越小;反之,二者偏差越大,若两个值完全相等时,卡方值就为0,表明理论值完全符合。其中卡方检验针对分类变量。卡方检验就是检验两个变量之间有没有关系。以运营为例:卡方检验可以检验男性或者女性对线上买生鲜食品有没有区别;不同城市级别的消费者对买SUV车有没有什么区别;如果有显著区别的话,我们会考虑把这些变量放到模型或者分析里去。
卡方检验公式如下:
\[
\chi^2 = \sum {\frac{{A-T}^2}{T}} \\
= \sum{\frac{{observed-expected}^2}{expected}}
\]
这个公式可以帮我们求出卡方检验的值,我们用
1 这个公式求得的值
2 自由度(degree of freedom)
3 置信度
其中,自由度我们可以求出来,置信度的话,我们按照我们自己意愿挑选,一般我们会挑90%或者95%。
以投硬币举例,这三个数值计算方法如下:
[投硬币]
我们拿到这3个信息,去查表,因为0.72小于查表得到的3.841,所以我们得出这个硬币是均衡的结论。
参考:
数据分析必须懂的假设检验
原假设与备择假设的联系与区别
抽样分布篇之九:参数的点估计和区间估计
结合日常生活的例子,了解什么是卡方检验