分类问题
以下均以二分类问题为例,即\(Y=\{1, -1\}\) , \(y = \mathop{sign}(f(x_i; \theta))\)
0-1损失
\[L_{0-1}(f, y) = I(fy \leq 0)\]
非凸、非光滑,难以优化
Hinge损失函数
0-1损失的一个代理函数,是0-1损失相对紧的上界,称为合页损失函数
\[L_{hinge}(f, y) = \max\{0, 1-fy\}\]
在\(fy=1\)处不可导,因此不能用梯度下降优化,而是用次梯度下降
Logistic损失函数
0-1损失的代理函数,凸上界
\[L_{logistic}(f, y) = \log_2 (1 + \exp (-fy))\]
处处光滑,可用梯度下降。但对所有样本点都有惩罚,因此对异常值更敏感
交叉熵损失函数
0-1损失函数的代理函数,光滑凸上界
\[L_{cross \ entropy} (f, y) = -\log2(\frac{1+fy}{2})\quad f \in [-1, 1]\]
回归问题
对于回归问题,有\(y = f(x_i;\theta)\)
平方损失函数
\[L_{square}(f, y) = (f - y)^2\]
光滑函数,能用梯度下降,但对异常点敏感
绝对损失函数
\[L_{absolute}(f, y) = |f - y|\]
相当于做中值回归,比平方损失函数鲁棒,但在\(f=y\)处无法求导数
Huber损失函数
综合考虑可导性和鲁棒性
\[L_{huber}(f, y) = \begin{aligned} \begin{cases} (f-y)^2 & |f-y| \leq \delta \\ 2\delta|f-y|-\delta^2 & |f-y|> \delta \end{cases} \end{aligned}\]
在\(|f-y|\)较小时为平方损失,在\(|f-y|\)较大时为线性损失,处处可导,且对异常点鲁棒