线性相关

线性相关|回归分析|

有些话、适合烂在心里 提交于 2019-12-01 07:20:20
生物统计学 ----- 相关与回归 描述和预测统计之后,相关与回归预测变量之间的关系。 相关关系是变量间关系不能用函数精确表达,即不一一对应而是点分布在直线周围。 评价指标是相关系数,有总体相关系数和样本相关系数 , 协方差的正负性与相关系数的正负性同步,当相关系数为 0 时虽然无线性相关,但是可能存在其他非线性关系: 相关系数具有对称性,改变坐标系和尺度不改变 r 大小(但协方差不满足该性质,只能表明某两个因素有线性相关性,但不一定因果关系。通常,还会对相关系数做假设检验。 回归方程进行预测是从一组样本出发,在筛选得到教较有影响力的因素后建立方程,利用回归方程由自变量得到因变量的结果。与相关区别在于线性相关中 x 、 y 是平等的且都是随机变量,而在回归中要求 x 是自变量且是否是随机变量都无所谓, y 是被解释的必须是随机变量。线性相关是用于描述的,而回归分析是用于描述和预测的。 回归分析类型可以是一元或多元的。 回归模型中, X 是自变量。 y 是因变量。 是 误差项,随机因素,是用来不能用线性关系解释的部分,满足均值为零方差相同的正态分布,是独立的。 但是每个 x 得到的信息都不相关独立,输入 x 得到的是所有可能 y 的均值。 求两个系数使用拉格朗日乘法(最小二乘法),即偏导数为零的点,得到系数。 离差平方和的分解,即 SST=SSR+SSE 。 SST

相关性模型-相关系数

瘦欲@ 提交于 2019-11-30 03:37:34
相关系数可用来衡量两个变量之间的相关性大小,根据数据满足的不同条件,选择不同的相关系数进行计算分析。 两种常用的相关系数:皮尔逊person和斯皮尔曼spearman。 总体和样本: 皮尔逊相关系数:(要求数据要都是符合正态分布的数据,而且数据需线性相关) 必须先确认两个变量时线性相关的( 画样本散点图先观察是否线性 ),然后此系数才能告诉他们相关程度如何。如果计算的相关系数为0,只能说明非线性相关。 不能说协方差大的两个变量比协方差小的两个变量更相关,因为没有消除变量的量纲的影响。皮尔逊相关系数就是协方差消除量纲后的结果。 样本皮尔逊相关系数同总体皮尔逊相关系数: 由于皮尔逊相关系数只是衡量已知线性相关的两个变量的相关程度,其他情况不适用: 对相关性大小的解释: 根据具体事情具体分析,没有标准大小的阈值规定。比起相关系数大小,我们更关注其显著性。(假设检验) 对皮尔逊相关系数进行假设检验: 如:求出相关系数r=0.3,问是否和0(非线性相关)有显著差异? 经假设检验求出03与0有显著差异的,就可说明变量的相关性是显著的;若求出0.3和0没有显著差异,可说明变量并不相关,相关系数不显著。 步骤: 对皮尔逊相关系数构造统计变量,知道统计量的分布,就可以画出统计变量的概率密度函数。将计算出的皮尔曼相关系数带入统计变量,得到一个检验值,根据置信水平画出统计变量接受域和拒绝域