线性回归(regression)
简介 回归分析只涉及到两个变量的,称一元回归分析。一元回归的主要任务是从两个相关变量中的一个变量去估计另一个变量,被估计的变量,称因变量,可设为Y;估计出的变量,称自变量,设为X。 回归分析就是要找出一个数学模型Y=f(X),使得从X估计Y可以用一个函数式去计算。 当Y=f(X)的形式是一个直线方程时,称为一元线性回归。这个方程一般可表示为Y=A+BX。根据最小平方法或其他方法,可以从样本数据确定常数项A与回归系数B的值。 线性回归方程 Target:尝试预测的变量,即目标变量 Input:输入 Slope:斜率 Intercept:截距 举例,有一个公司,每月的广告费用和销售额,如下表所示: 如果把广告费和销售额画在二维坐标内,就能够得到一个散点图,如果想探索广告费和销售额的关系,就可以利用一元线性回归做出一条拟合直线: 有了这条拟合线,就可以根据这条线大致的估算出投入任意广告费获得的销售额是多少。 评价回归线拟合程度的好坏 我们画出的拟合直线只是一个近似,因为肯定很多的点都没有落在直线上,那么我们的直线拟合的程度如何,换句话说,是否能准确的代表离散的点?在统计学中有一个术语叫做R^2(coefficient ofdetermination,中文叫判定系数、拟合优度,决定系数),用来判断回归方程的拟合程度。 要计算R^2首先需要了解这些: 总偏差平方和(又称总平方和,SST