学习笔记,仅供参考,有错必纠
具体原理:统计量及其抽样分布 ;数据的概括性度量
贾俊平统计学
数据的分布特征
概率与概率分布
- 样本、事件和样本空间
总体:是包含所研究的全部个体(数据)的集合。
样本:是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量。
随机事件:在同一组条件下,每次试验可能出现也可能不出现的事件,也叫偶然事件。
必然事件:在同一组条件下,每次试验一定出现的事件。
不可能事件:在同一组条件下,每次试验一定不出现的事件。
样本空间:所有和某个实验相关的基本事件的集合。
- 事件的概率
事件A的概率是描述事件A在试验中出现的可能性大小的一种度量,记事件A出现可能性大小的数值为 P ( A ) P(A) P(A), P ( A ) P(A) P(A)称为事件A的概率。
- 条件概率
当某一事件B已经发生时,事件A发生的概率,称这种概率为事件B发生条件下事件A发生的条件概率,记为 P ( A ∣ B ) P(A|B) P(A∣B)
- 条件概率
两个事件中不论哪一个事件发生并不影响另一个事件发生的概率,则称这两个事件相互独立。与此相对应的是相依事件,即一个事件发生与否会影响另一个事件的发生。根据事件独立性的含义,由于一个事件发生与否不会影响另一个事件发生的概率,因此其条件概率应等于其无条件概率。即:
P ( B ∣ A ) = P ( B ) P ( A ∣ B ) = P ( A ) P(B|A)=P(B) \\P(A|B)=P(A) P(B∣A)=P(B)P(A∣B)=P(A)
也可以简化为:
P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B)
- 全概公式
设 B 1 , B 2 , . . . B_1, B_2, ... B1,B2,...为有限或无限个事件,它们两两互斥且在每次试验中至少发生一个,用式表之,即:
B i B j = ∅ B 1 + B 2 + . . . = Ω B_i B_j=\emptyset \\B_1+B_2+...= \Omega BiBj=∅B1+B2+...=Ω
现在考虑一事件 A A A,因为 Ω \Omega Ω为必然事件,则有 A = A Ω = A B 1 + A B 2 + . . . A=A \Omega =AB_1+AB_2+... A=AΩ=AB1+AB2+...,再由条件概率的定义,得:
P ( A ) = P ( B 1 ) P ( A ∣ B 1 ) + P ( B 2 ) P ( A ∣ B 2 ) + . . . (1) P(A)=P(B_1) P(A|B_1) +P(B_2) P(A|B_2)+... \tag{1} P(A)=P(B1)P(A∣B1)+P(B2)P(A∣B2)+...(1)
公式1就称为"全概率公式"
- 随机变量
在同一组条件下,如果每次试验可能出现这样或那样的结果,并且把所有的结果都能列举出来,即把 X X X的所有可能值 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn都能列举出来。而且 X X X的可能值 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn具有确定概率 P ( x 1 ) , P ( x 2 ) , . . . , P ( x n ) P(x_1), P(x_2),...,P(x_n) P(x1),P(x2),...,P(xn),其中 P ( x i ) = P ( X = x i ) P(x_i)=P(X=x_i) P(xi)=P(X=xi),称为概率函数,则 X X X称为 P ( X ) P(X) P(X)的随机变量, P ( X ) P(X) P(X)称为随机变量 X X X的概率函数。
统计量及其抽样分布
- 统计量
设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn是从总体 X X X中抽取的容量为n的一个样本,如果由此样本构造一个函数 T ( X 1 , X 2 , . . . , X n ) T(X_1,X_2,...,X_n) T(X1,X2,...,Xn),不依赖于任何未知参数,则称该函数是一个统计量。
- 常用统计量
样本均值、样本方差、变异系数、样本k阶距、样本k阶中心距、样本偏度、样本峰度
- 次序统计量
(略)
- 充分统计量
统计量加工过程中一点信息都不损失的统计量通常称为充分统计量。
- 抽样分布
抽样分布:样本统计量的分布
在总体的分布类型已知时,若对任一自然数n,都能导出统计量 T ( X 1 , X 2 , . . . , X n ) T(X_1,X_2,...,X_n) T(X1,X2,...,Xn)的分布的数学表达式,这种分布称为精确的抽样分布。精确的抽样分布大多是在正态总体情况下得到的。在正态总体条件下,主要有卡方分布,t分布,F分布
- 渐进分布
通常,精确抽样分布是很难求得的。有时尽管求出了精确抽样分布,但也因为过于复杂而难以应用。所以,统计学家借助极限工具,寻求在样本量n无限增大时统计量的极限分布。在实际应用中,当n较大时就用这种极限分布作为抽样分布的一种近似。这种极限分布常称为渐近分布。
- 中心极限定理
设从均值 μ \mu μ、方差 σ 2 \sigma ^2 σ2的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为 μ \mu μ、方差 σ 2 / n \sigma ^2/n σ2/n的正态分布。
- 样本比例的分布
(略)
- 样本方差的分布
(略)
- 两样本均值之差的分布
(略)
- 两样本比例之差的分布
(略)
- 两样本方差之比的分布
(略)
来源:oschina
链接:https://my.oschina.net/u/4375296/blog/4268577