f-divergence
P和Q是两个分布,p(x)和q(x)是从中取样x的可能性。
Df最小值为0,此时P和Q完全一样
当P和Q略有不同时,Df>0
f(x)不同时,divergence也不同
Fenchel Conjugate
每个函数f有一个f*
f*(t1)的最大值要穷举所有的x,取最大的值就是f*(t1)
同理,f*(t2)的最大值要穷举所有的x,取最大的值就是f*(t2)
这样太麻烦,另一个方法:
把xt-f(x)的函数画出来,带入不同的x,给定一个t,找函数最大的值
f(x)=xlogx 带入不同x值的曲线:
红色线就是f(x)的Fenchel Conjugate: f*(t)=exp(t-1)
跟GAN的联系:
将f(x)用 max{xt-f*(t)} 代替
那么f(px/qx)就是max{(px/qx)t-f*(t)}
将 t 用D(x)代替:
那么Df(P||Q)约等于:
和GAN的比较:
来源:CSDN
作者:shanhaibukeping
链接:https://blog.csdn.net/shanhaibukeping/article/details/103767551