机器学习(二):理解线性回归与梯度下降并做简单预测
预测从瞎猜开始 按 上一篇文章 所说,机器学习是应用数学方法在数据中发现规律的过程。既然数学是对现实世界的解释,那么我们回归现实世界,做一些对照的想象。 想象我们面前有一块塑料泡沫做的白板,白板上分布排列着数枚蓝色的图钉,隐约地它们似乎存在着某种规律,我们试着找出规律。 白板上的图钉( 数据 )如上图所示,我们有没有一种方法( 数学算法 )来寻找规律( 模型解释 )呢? 既然不知道怎么做,那我们瞎猜吧! 我拿起两根木棒在白板前比划,试着用木棒表示数据的规律。我随便放了放,如下图所示: 它们似乎都在一定程度上能表示蓝色图钉的规律,那么问题来了,绿色(虚线)和红色(实线)哪一个表示更好呢? 损失函数(成本函数) 好与坏是很主观的表达,主观的感受是不可靠的,我们必须找到一种客观的度量方式。我们想当然的认为误差最小的表示,是最好的。那么,我们引出一种量化误差的方法---最小二乘法。 最小二乘法 :使误差的平方和最小的办法,是一种误差统计方法,二乘就是平方的意思。 $$ SE = \sum{(y_{pred} -y_{true})^2} $$ 最小二乘法的解释是这样的,我们用 预测值-实际值 表示单点的误差,再把它们的 平方和 加到一起来表示整体误差。( 平方的好处可以处理掉负数值,用绝对值的和也不是不可以。 )我们用这个最终值来表示损失(成本),而可以表示损失(成本)的函数就叫做损失函数