为什么要用logistic回归？

在医学领域，我们经常会遇到这样的数据：患病与未患病、生存与死亡、阴性与阳性……这些结果都是二分类变量。如果要研究自变量与分类型因变量的关系，用多元线性回归模型是束手无策的，因为多元线性回归模型研究连续性因变量，并且要求总体（因变量）分布类型为正态分布。因此，当因变量为分类变量时，需要使用logistic回归模型。

什么是logistic回归模型？

logit变换

我们在建立回归方程时，因变量的取值范围为实数集；而在我们所研究的问题中，这些分类型因变量的取值却是在0~1之间，如患病率为0.1、0.5、0.8等等，因此需要先对因变量的值（目标概率）做logit变换。

设事件发生的概率为$p$，不发生的概率为$1-p$，则将$\frac{p}{1-p}$称为事件的发生比，记为odds（比数、优势），logit变换即为：

$$logit(p)=ln(\frac{p}{1-p})$$

显然，当$p=1$时，$logit(p)$取值为$+\infty$；当$p=0.5$时，$logit(p)=0$；当$p=0$时，$logit(p)$取值为$-\infty$。这样一来，就把因变量的取值范围从0~1扩展到了实数集，而采用了这种处理的回归分析就是logistic回归。

logistic回归模型

设有一个二分类因变量y，取值为1时表示事件发生，取值为0时表示事件未发生；该因变量有m个影响因素（自变量）：$x_1,x_2,...,x_m$；记事件发生的条件概率$P(y=1\mid x_i)=p_i$，则由$p_i$（第i个观测）所构建的logistic回归模型为：

$$logit(p_i)=ln(\frac{p_i}{1-p_i})=\beta_0+\beta_1x_1+\cdots +\beta_mx_m=\beta_0+\sum_{j=1}^{m}\beta_jx_j,j=1,2,\cdots,m$$

其中$\beta_j$表示自变量$x_j$改变一个单位时，$logit(p_i)$的改变量，可以理解为各个影响因素的权重系数。

通过变换，logistic回归模型也可以写成如下形式：

$$p_i=\frac{e^{\beta_0+\sum_{j=1}^{m}\beta_jx_j}}{1+e^{\beta_0+\sum_{j=1}^{m}\beta_jx_j}}$$

通过观察logistic回归模型，我们会发现它与线性回归模型非常相似。事实上，logistic回归模型属于广义线性模型（generalized linear model）。

logistic回归模型的参数估计

logistic回归模型的假设检验

来源：https://www.cnblogs.com/zm-pop-pk/p/11668294.html

标签

因变量

回归模型