在理解交叉熵损失函数之前,有必要先来说一下信息熵这个概念
信息熵
信息熵可以理解为信息杂乱程度的量化描述:信息越多,概率越均等则信息熵就越大;反之,信息越单一,概率越偏向其中某一个信息,那么熵值就越小
公式如下:
其中,
表示一个信息的信息量,概率越小,信息量就越大,这很好理解,比如“太阳从西边出来了”,这几乎不可能发生,如果发生了,那对于我们来说其所含的信息量是巨大的
交叉熵损失函数
先给出公式:
其中ŷ为预测值
我们来解释一下这个公式:
当y=1时,L(ŷ,y)=-log ŷ,如果ŷ越接近于1,损失函数越接近于0
当y=0时,L(ŷ,y)=-(1-y)log(1-ŷ),如果ŷ越接近于0,损失函数越接近于0
在逻辑回归中,预测值是一个概率,它表示与样本的拟合程度,而该公式既很好地表达了这种关系,也满足了损失函数的定义
来源:CSDN
作者:ma_kua
链接:https://blog.csdn.net/ma_kua/article/details/103994621