logistic回归与线性回归实际上有很多相同之处,最大的区别就在于他们的因变量不同,其他的基本都差不多,正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalized
linear
model)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同,如果是连续的,就是多重线性回归,如果是二项分布,就是logistic回归。logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最为常用的就是二分类的logistic回归。
与线性回归不同,逻辑回归主要用于解决分类问题,那么线性回归能不能做同样的事情呢?下面举一个例子。比如恶性肿瘤和良性肿瘤的判定。假设我们通过拟合数据得到线性回归方程和一个阈值,用阈值判定是良性还是恶性:
如图,size小于某值就是良性,否则恶性。但是“噪声”对线性方程的影响特别大,会大大降低分类准确性。例如再加三个样本就可以使方程变成这样:
那么,逻辑斯特回归是怎么做的呢?如果不能找到一个绝对的数值判定肿瘤的性质,就用概率的方法,预测出一个概率,比如>0.5判定为恶性的。
2.2 Sigmoid函数
逻辑回归首先把样本映射到[0,1]之间的数值,这就归功于sigmoid函数,可以把任何连续的值映射到[0,1]之间,数越大越趋向于0,越小越趋近于1。
函数的图像如下图,x=0的时候y对应中心点。
判定边界:对多元线性回归方程求Sigmoid函数hθ(x)=g(θ0+θ1x1+...+θnxn)hθ(x)=g(θ0+θ1x1+...+θnxn),找到一组θθ,假设得到−3+x1+x2=0−3+x1+x2=0的直线,把样本分成两类。把(1,1)代入g函数,概率值<0.5,就判定为负样本。这条直线就是判定边界,如下图:
拟合:拟合模型/函数
由测量的数据,估计一个假定的模型/函数。如何拟合,拟合的模型是否合适?可分为以下三类
1合适拟合
2欠拟合
3 过拟合
看过一篇文章(附录)的图示,理解起来很不错:
欠拟合:
逻辑回归欠拟合
合适的拟合
过拟合
过拟合的问题如何解决?
模型太复杂,参数过多,特征数目过多。
总之
线性回归 | 逻辑回归 | |
---|---|---|
目的 | 预测 | 分类 |
函数 | 拟合函数 | 预测函数 |
参数计算方式 | 最小二乘 | 最大似然估计 |
参考文章:
https://blog.csdn.net/viewcode/article/details/8794401
https://blog.csdn.net/JoyceWYJ/article/details/51596797
https://blog.csdn.net/qq_38328378/article/details/81349922
来源:51CTO
作者:大海之中
链接:https://blog.51cto.com/12597095/2093869