概率分布之间的距离度量以及python实现(三)
转自: https://www.cnblogs.com/denny402/p/7050779.html 概率分布之间的距离,顾名思义,度量两组样本分布之间的距离 。 1、卡方检验 统计学上的 χ 2 统计量,由于它最初是由英国统计学家Karl Pearson在1900年首次提出的,因此也称之为Pearson χ 2 ,其计算公式为 (i=1,2,3,…,k) 其中, A i 为i水平的观察频数, E i 为i水平的期望频数,n为总频数, p i 为i水平的期望频率。i水平的期望频数 E i 等于总频数n×i水平的期望概率 p i 。当n比较大时, χ 2 统计量近似服从k-1(计算 E i 时用到的参数个数)个自由度的卡方分布。 卡方检验经常用来检验某一种观测分布是不是符合某一类典型的理论分布(如二项分布,正态分布等)。 观察频数与期望频数越接近,两者之间的差异越小, χ 2 值越小;如果两个分布完全一致, χ 2 值为0; 反之,观察频数与期望频数差别越大,两者之间的差异越大, χ 2 值越大。 换言之,大的 χ 2 值表明观察频数远离期望频数,即表明远离假设。小的 χ 2 值表明观察频数接近期望频数,接近假设。因此, χ 2 是观察频数与期望频数之间距离的一种度量指标,也是假设成立与否的度量指标。如果 χ 2 值“小”,研究者就倾向于不拒绝 H 0 ;如果 χ 2 值大