交叉熵损失函数

假装没事ソ 提交于 2020-01-16 08:26:18

在理解交叉熵损失函数之前,有必要先来说一下信息熵这个概念

信息熵

信息熵可以理解为信息杂乱程度的量化描述:信息越多,概率越均等则信息熵就越大;反之,信息越单一,概率越偏向其中某一个信息,那么熵值就越小

公式如下:

H(X)=i=1nP(x(i))logP(x(i)) H(X)=-\sum _ {i=1}^n P(x^{(i)}) logP(x^{(i)})

其中,

logP(x(i)) -logP(x^{(i)})
表示一个信息的信息量,概率越小,信息量就越大,这很好理解,比如“太阳从西边出来了”,这几乎不可能发生,如果发生了,那对于我们来说其所含的信息量是巨大的

交叉熵损失函数

先给出公式:
L(y^,y)=[ylogy^+(1y)log(1y^)] L(\hat y,y)=-[ylog\hat y+(1-y)log(1-\hat y)]
其中ŷ为预测值

我们来解释一下这个公式:
当y=1时,L(ŷ,y)=-log ŷ,如果ŷ越接近于1,损失函数越接近于0
当y=0时,L(ŷ,y)=-(1-y)log(1-ŷ),如果ŷ越接近于0,损失函数越接近于0

在逻辑回归中,预测值是一个概率,它表示与样本的拟合程度,而该公式既很好地表达了这种关系,也满足了损失函数的定义

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!