线性模型
在机器学习的术语中,当预测值为连续值时,称为“回归问题”,离散值时为“分类问题”。
最小二乘法:
3.1线性回归
对于连续值的属性,一般都可以被学习器所用,有时会根据具体的情形作相应的预处理,
- 例如:归一化等;
对于离散值的属性,
- 若属性值之间存在“序关系”,则可以将其转化为连续值,例如:身高属性分为“高”“中等”“矮”,可转化为数值:{1, 0.5, 0}。
- 若属性值之间不存在“序关系”,则通常将其转化为向量的形式,例如:性别属性分为“男”“女”,可转化为二维向量:{(1,0),(0,1)}。
当输入属性只有一个的时候,就是最简单的情形,也就是我们高中时最熟悉的“最小二乘法”
当输入属性有多个的时候,例如对于一个样本有d个属性{(x1,x2…xd),y},则y=wx+b需要写成:
对于多元问题,常常使用矩阵的形式来表示数据。在本问题中,将具有m个样本的数据集表示成矩阵X,将系数w与b合并成一个列向量,这样每个样本的预测值以及所有样本的均方误差最小化就可以写成下面的形式:
当一个矩阵的行列式不等于0时,我们才可能对其求逆,则可以求出其解;若为0,则需要使用其它的方法进行计算,书中提到了引入正则化,此处不进行深入。
有时像上面这种原始的线性回归可能并不能满足需求,例如:y值并不是线性变化,而是在指数尺度上变化。这时我们可以采用线性模型来逼近y的衍生物,例如lny,这时衍生的线性模型如下所示,实际上就是相当于将指数曲线投影在一条直线上,
更一般地,考虑所有y的衍生物的情形,就得到了“广义的线性模型”(generalized linear model),其中,g(*)称为联系函数(link function)。
3.2逻辑回归
回归就是通过输入的属性值得到一个预测值
通过一个联系函数,将预测值转化为离散值从而进行分类,线性几率回归正是研究这样的问题。将预测值投影到0-1之间,从而将线性回归问题转化为二分类问题。
3.3线性判别分析
基本思想是:将训练样本投影到一条直线上,使得同类的样例尽可能近,不同类的样例尽可能远。
来源:CSDN
作者:从菜鸟到python工程师
链接:https://blog.csdn.net/weixin_43797885/article/details/103567705