生物统计学-描述统计
首先必须明确:生物实验的总体是无穷个,而研究人员做生物实验得到的数据永远是样本。因为不同类别的变量指向不同的统计方法,所以必须首先明确变量类型。
变量类型有:
其中,类别变量的本质是字符串,数值变量的本质是数值型,所以,虽然有些类别变量表现为数字,但将它们做运算的结果是没有任何意义的。
数据类型的分类依据有:
获取方式(观测数据;实验数据)、衡量尺度(数值型数据;顺序数据;分类数据)、属性(定性数据;定量数据)、数学性质(离散数据;连续数据)。。。。。:
其中,二次数据需注意经过何种处理,因为这样才能知道该数据是否适合本研究或者该数据对于本研究是否过时,这是数据筛选的一种。
得到了有效数据之后,将用表与图将这些数据的信息表现出来,关键在于用最简洁的表现方法表现出最大的信息量。
为了进一步分析数据,统计学上规定了一些术语:
eg1000A1000
:nm
:Xx
:第一次试验的数据中的第二个测量量
:第一次试验的数据中的第三个测量量
:n
:n
参数仅是对于总体而言的真值,而统计量完全由样本中的随机变量计算出来与参数无关,所以只能用统计量来进行参数估计和假设检验,而不能确定真实的参数值,所以统计量也是随机变量。具体而言,就是每次实验都会得到一个统计量的值作为参数的估计值,有可能回回都不一样。
为了准确描述统计量的特征,研究人员通过对统计量的数学运算,提取了(或者也放大了)统计量的某些特征。
想要得到统计量的集中区域特征,可以使用:算术平均数,但易受极端值影响,加权平均数可以减轻极端值的影响;中位数需要排序得到,但是不宜进行代数运算和统计推断,因为统计推断也需要能运算的值。众数对观察值个数和值的变化不敏感,所以它与其他统计量组合使用;几何平均数;调和平均数
要想评估统计量的分散长度,可以使用:极差明确了数据范围;方差是所有数据偏离均值的程度的均值,放大了微小的分散程度,便有判断;样本方差;总体方差;标准差;变异系数可以用于方差相同均值不同的数
&
“山峰”的尖锐程度(eg值>0
“山峰”的偏离程度(eg
有了描述统计,才能看出了其分布,才能依据分布推断总体,而不是用单一数值去推断总体
来源:博客园
作者:YUANya
链接:https://www.cnblogs.com/yuanjingnan/p/11470681.html