生物统计学-----相关与回归
描述和预测统计之后,相关与回归预测变量之间的关系。
相关关系是变量间关系不能用函数精确表达,即不一一对应而是点分布在直线周围。
评价指标是相关系数,有总体相关系数和样本相关系数,协方差的正负性与相关系数的正负性同步,当相关系数为0时虽然无线性相关,但是可能存在其他非线性关系:
相关系数具有对称性,改变坐标系和尺度不改变r大小(但协方差不满足该性质,只能表明某两个因素有线性相关性,但不一定因果关系。通常,还会对相关系数做假设检验。
回归方程进行预测是从一组样本出发,在筛选得到教较有影响力的因素后建立方程,利用回归方程由自变量得到因变量的结果。与相关区别在于线性相关中x、y是平等的且都是随机变量,而在回归中要求x是自变量且是否是随机变量都无所谓,y是被解释的必须是随机变量。线性相关是用于描述的,而回归分析是用于描述和预测的。
回归分析类型可以是一元或多元的。
回归模型中,X是自变量。y是因变量。是误差项,随机因素,是用来不能用线性关系解释的部分,满足均值为零方差相同的正态分布,是独立的。
但是每个x得到的信息都不相关独立,输入x得到的是所有可能y的均值。
求两个系数使用拉格朗日乘法(最小二乘法),即偏导数为零的点,得到系数。
离差平方和的分解,即SST=SSR+SSE。SST是观察值与均值的偏差,即总变异,SSR是x能解释y的平方和,SSE是除x以外其他因素对y影响的平方和,可以使用SSR/SST,即判定系数来判定回归方程的拟合程度,该值必然在(0,1)。
回归方程的检验:判定回归方程中线性关系是否显著使用F分布(SSR、SSE)。
回归系数的检验可使用残差分析检验假设是否成立。