MATLAB-数据统计分析

点点圈 提交于 2019-11-27 16:09:33

一、统计量

 

  1. 表示位置的统计量—平均值和中位数.

   平均值(或均值,数学期望):

 中位数:将数据由小到大排序后位于中间位置的那个数值.

2. 表示变异程度的统计量—标准差、方差和极差.

   标准差

         它是各个数据与均值偏离程度的度量.

   方差:标准差的平方.

       极差:样本中最大值与最小值之差.

对随机变量x,计算其基本统计量的命令:

mean(x)均值
std(x)标准差
median(x)中位数
var(x)方差

下文转载:https://www.cnblogs.com/leezx/p/7340045.html

离散型随机变量分布

1.两点分布/伯努利分布

伯努利分布是二项分布在n=1时的特例。一次随机试验,成功概率为p,失败概率为q=1-p。

伯努利分布

2.二项分布

1502348320(1)

二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。

二项分布的典型例子是扔硬币,硬币正面朝上概率为p, 重复扔n次硬币,k次为正面的概率即为一个二项分布概率。

二项分布

3.超几何分布

对N件产品(其中M件次品)进行不放回抽样,在n次抽样种抽到次品数X,服从超几何分布。

超几何分布

4.几何分布

X记首次成功的概率,服从几何分布。

5.负二项分布

X记第k次成功时总的实验次数,当k=1时,为几何分布。

“二项分布”是固定试验总次数N的独立试验中,成功次数k的分布;而“负二项分布”是所有到成功r次时即终止的独立试验中,失败次数k的分布。

image

负二项分布

Negative binomial distribution

负二项回归模型的统计推断

例子:

Pat is required to sell candy bars to raise money for the 6th grade field trip. There are thirty houses in the neighborhood, and Pat is not supposed to return home until five candy bars have been sold. So the child goes door to door, selling candy bars. At each house, there is a 0.4 probability of selling one candy bar and a 0.6 probability of selling nothing.

What's the probability of selling the last candy bar at the nth house?

6.泊松分布

有些事件,我们可以预估这些事件的总数,但是没法知道具体的发生时间。

如:已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?

如:已知所有cell中reads的总数,相当于知道均值,问下一个细胞的reads数是多少。

这些从常理上看,我们会归为均匀分布,但现实就是泊松分布。

泊松分布和指数分布:10分钟教程

如何理解泊松分布和泊松过程

 

连续型随机变量分布

1.均匀分布

 

2.指数分布

指数分布是事件的时间间隔的概率。

3.正态分布

反应误差的最重要的分布,确定了均值和标准差就能确定一种正态分布。

 

参考:

伯努利分布、二项分布、多项分布、Beta分布、Dirichlet分布

负二项分布为什么叫这个名字?“负”从何而来?

 

数字特征

1.期望

相当于平均值

2.方差

就是方差

3.协方差

所以,我们可以定义一个表示X, Y 相互关系的数字特征,也就是协方差

cov(X, Y) = E(X-EX)(Y-EY)。

当 cov(X, Y)>0时,表明 X与Y 正相关;

当 cov(X, Y)<0时,表明X与Y负相关;

当 cov(X, Y)=0时,表明X与Y不相关。

这就是协方差的意义。

终于明白协方差的意义了

4.相关系数

image

翻译一下:就是用X、Y的协方差除以X的标准差和Y的标准差。

所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。

如何通俗易懂地解释「协方差」与「相关系数」的概念?

5.矩

原点矩

中心矩

 

其他数字特征

中位数

分位数

众数

变异系数:将离散程度标准化,等于均值除以方差

偏态系数

峰态系数

 

大数定律

如果实验次数足够大,样本均值就会趋近于总体的期望

好吧,学概率的时候,我们总有一种潜在的潜在的观念   

——当数很大的时候平均值,就是期望值。   

比如,我们投骰子,如果我们投100次,求出现的数的平均,我们觉得会差不多是(1+6)/2=3.5 因为我们按照期望计算,算出来就是3.5。   

但是,这是我们一个假定,我们还需要论证,为什么当数很大的时候,平均值就是期望值呢?  这就是大数定理证明了的了。   

中心极限定理

大量相互独立的随机变量,其均值(或者和)的分布以正态分布为极限(意思就是当满足某些条件的时候,比如Sample Size比较大,采样次数区域无穷大的时候,就越接近正态分布)。而这个定理amazing的地方在于,无论是什么分布的随机变量,都满足这个定理。

 

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!