线性回归
0. 概述 线性回归应该是我们听过次数最多的机器学习算法了。在一般的统计学教科书中,最后都会提到这种方法。因此该算法也算是架起了数理统计与机器学习之间的桥梁。线性回归虽然常见,但是却并不简单。该算法中几乎包含了所有有监督机器学习算法的重要知识点,比如数据的表示、参数的训练、模型的评价、利用正则化防止过拟合等概念。所以说如果掌握了线性回归,可以为后面的学习打下坚实的基础。 1. 线性回归的基本形式 最简单的线性回归就是直接利用一条直线拟合二维平面上的一系列点,目的是利用这条直线概括所有训练集中样本的散布规律或趋势,最终用于新样本点的预测。二维平面上直线方程的一般形式为 y = a x + b y=ax+b,使用训练集中的数据以某种方式训练该模型后,就可以确定方程中的两个参数 a , b a,b的最优值。后面如果观察到了新的样本 x i xi,就可以带入上面学习到的公式计算 y y的值了。 在三维空间中,需要学习的是确定一个二维平面的参数; 以此类推,在 n n维空间中,需要学习的是确定一个 n − 1 n−1维的超平面的参数. 之所以称该方法为线性模型,是因为该模型是 由所有特征的线性组合构成 的,基本形式为: 式子(1-2)表示所有样本值的矩阵与对应参数向量的乘积,属于矩阵乘法((Matrix multiplication)。 具体可以参考我的另一篇博客 【机器学习