【机器学习】线性回归LinearRegression原理以及系数推导
线性方程 y = w1x1 + w2x2 + … … + wnxn + b 令 W = (w1, w2 … … wn), X = (x1, x2, … … xn) 则 y = W * X ^ T + b 称 W 为回归系数, X 为特征向量, b 为截距 线性方程的推导 现有 m 个已知样本, 每个样本有 n 个特征记为 X1, X2, … … , Xn 每个X中都有 n 个 x 对应的标签记为: y1, y2, … … , ym ,且特征和标签成线性关系 此时只要求得 W 就可得到线性回归方程 将m个已知量带入方程会得到方程组: y1 = W * X1 ^ T + b = w1x1_1 + w2x1_2 + … … + wnx1_n + b y2 = W * X2 ^ T + b = w1x2_1 + w2x2_2 + … … + wnx2_n + b … … ym = W * Xm ^ T + b = w1xm_1 + w2xm_2 + … … + wnxm_n + b 讨论: m > n 且无共线, 方程无解 m = n 且无共线, 有且只有一个解 m < n 无数个解 在实际生产环境中 m >> n (样本数远远大于特征维度), 所以上述方案行不通 最小二乘法 假设 W’ 和 b‘ 是最合适的, 得到假设出来的回归方程: W‘ * X ^