R-4.多元线性回归
在 相关关系 一文中,我们探讨了俩数值型变量的相关问题,其中相关系数可反映相关性大小和方向,相关性检验可验证相关系数的可靠性。 但很多时候,仅靠相关分析来研究变量关系是不够的,为了获得更精确的数量关系并进一步做一些推断,有必要引入新的模型方法。 回归分析可以说是最简单的统计模型,但简单并不意味着不好用,就我而言,通常会把线性回归作为一个基准,来对比其它模型的效果。 下面介绍一种常用的回归模型: 多元线性回归 引例 :R包一个自带数据集,50行5个变量,其中"Murder"作为本次实验的因变量,“Population”、“Illiteracy”、 "Income"和"Frost"作为自变量。 - 模型表达式 accurate_murder=b+k1 Population+k2 Illiteracy+k3 Income+k4 Frost - 参数估计 fit <- lm(Murder ~ Population + Illiteracy + Income + Frost, data = states) summary(fit) - 模型诊断 即使得到了参数估计的结果,也不是拿来就能用的,还需要进行一些统计检验,就多元线性回归而言,我们关注:a.多重共线性;b.残差的独立、正态、无自相关;c.回归系数的显著性;d.模型整体的显著性。 多重共线性 即解释变量间的相关性问题,因为都是数值型变量