所有人都能看懂的正规方程(Normal Equation for Everybody)
目录 前言 问题重述 方法 正规方程 线性方程组 问题所在 解决问题 一维投影 二维投影 奇怪的事情 经典的证明 写在最后 前言 几次接触机器学习的第一部分(像我背单词只记得abandoned一样),都会被线性模型中直接求解的这个正规方程(Normal Equation)搞得一头雾水,梯度下降还好理解些,但这个正规方程是真的一点头绪没有,西瓜书的周老师和统计学习方法的李老师都是传统的“抽象大师”,愚笨的我完全看不懂啊,在网上找到的博客也都是直接矩阵求导得到的,知其然不知其所以然。直到有一天突然遇到一个奇怪的老教师,仅仅用了不到一个小时就给我讲明白了,特来记录一下,也借此感谢这位奇怪但不失幽默的大师。 问题重述 我们有必要再回顾一下线性模型是解决什么问题: 问题的大意就是:如果给定某些确定的点,能否找到一个确定的线(hypothesis),把点连起来,使得这条线能过经过尽可能多的点。(以机器学习目标的角度来看,就是能否找到一个假设可以有更好的泛化性,对未知的x能预测出较为准确的y) 方法 当然,我们熟悉的就是最小二乘法,指定loss函数,然后使用梯度下降的方法,一次次更新参数,这个方法在吴恩达老师的视频里讲述的非常形象,这里不在赘述,主要想说一说另一种比较简单粗暴的“正规方程”做法。 这里我想先把正规方程放在这里,让大家有个印象,然后我们一步一步把它推出来: Θ = ( X T X