超几何随机变量
1 定义
假定一个袋子里面有N个球,其中有m个白球,N−m个黑球,现在随机地从袋子中不放回地取出n个球,令随机变量X表示取出来的白球数,则:
P{X=i}=(Nn)(mi)(N−mn−i) i=0,1,⋯,n
一个随机变量X如果其概率质量函数形如上式,其中N,m,n值给定,那么就称X为超几何随机变量。
注意,i的取值范围是0到n,如果i不满足n−(N−m)≤i≤min(n,m),那么P{X=i}=0,但是上式总是成立的,因为我们规定了在k<0或r<k时,(rk)=0。
2 超几何随机变量的近似
现在我们已经知道了从N个球(白球比例p=m/N)中不放回地随机取n个球,那么取中的白球数为超几何随机变量。现在考虑一种情况,即对与n来说,如果m,N都很大的话,那么有放回和无放回地取球没什么差别,因为不管取出来的是什么球,接下来取到白球的概率仍然近似于p。直观感觉就是,当m,N相对于n很大时,X的概率质量函数应该近似于参数为(n,p)的二项随机变量的概率质量函数。我们来推导一下:
P{X=i}=(Nn)(mi)(N−mn−i)=(m−i)!i!m!∗(N−m−n+i)!(n−i)!(N−m)!∗N!(N−n)!n!=(ni)Nm∗N−1m−1⋯N−iN−m∗N−i−1N−m−1⋯N−i−(n−i−1)N−m−(n−i−1)≈(ni)pi(1−p)n−i
其中最后一个等式成立的条件是p=m/N且m,N相对于n,i来说都很大。
3 参数为(n,N,m)的超几何随机变量的期望和方差
按照之前的期望和方差的求法,通过找到递推关系来计算,我们先来计算E[Xk]:
E[Xk]=i=0∑nikP{X=i}=i=0∑nik(mi)(N−mn−i)/(Nn)
利用恒等式i(mi)=m(m−1i−1),n(Nn)=N(N−1n−1)带入上式得:
E[Xk]=Nmni=1∑nik−1(m−1i−1)(N−mn−i)/(N−1n−1)
换元令j=i−1,上式得:
E[Xk]=Nmnj=0∑n−1(j+1)k−1(m−1j)(N−mn−j−1)/(N−1n−1)=NmnE[(Y+1)k−1]
其中Y为参数为(n−1,N−1,m−1)的超几何随机变量。在上式的基础上令k = 1得到期望:
E[X]=Nmn=np
即取出白球数的期望值为Nmn。再令k=2得到:
E[X2]=NmnE[Y+1]=Nmn[N−1(m−1)(n−1)+1]
则方程Var(X)为:
Var(X)=E[X2]−E[X]2=Nmn[N−1(m−1)(n−1)+1−Nmn]=np(1−p)(1−N−1n−1)
根据上一节的内容,当N,m相对于n,i很大时,上式方差Var(X)近似于:
Var(X)≈np(1−p)
总的来说,E[X]与又放回取球(即白球数是参数为(n,p)的二项随机变量)是一样的,而当球数很大时,Var(X)近似于有放回的情形。
参考资料:《概率论基础教程》Sheldon M.Ross