生成对抗网络GAN详细推导

♀尐吖头ヾ 提交于 2019-12-03 19:17:00


概述

1、什么是GAN?

生成对抗网络简称GAN,是由两个网络组成的,一个生成器网络和一个判别器网络。这两个网络可以是神经网络(从卷积神经网络、循环神经网络到自编码器)。我们之前学习过的机器学习或者神经网络模型主要能做两件事:预测和分类,这也是我们所熟知的。那么是否可以让机器模型自动来生成一张图片、一段语音?而且可以通过调整不同模型输入向量来获得特定的图片和声音。例如,可以调整输入参数,获得一张红头发、蓝眼睛的人脸,可以调整输入参数,得到女性的声音片段,等等。也就是说,这样的机器模型能够根据需求,自动生成我们想要的东西。因此,GAN 应运而生!
在这里插入图片描述

2、发展历史

生成对抗网络是由Ian Goodfellow等人于2014年在论文《Generative Adversarial Networks》中提出的。学术界公开接受了GAN,业界也欢迎GAN。GAN的崛起是不可避免的。

随着《Generative Adversarial Networks》提出后,GAN产生了广泛流行的架构,如DCGAN,StyleGAN,BigGAN,StackGAN,Pix2pix,Age-cGAN,CycleGAN。这些架构展示了非常有前途的结果。而随着GAN在理论与模型上的高速发展,它在计算机视觉、自然语言处理、人机交互等领域有着越来越深入的应用,并不断向着其它领域继续延伸。因此,本文将对GAN的理论与其应用做一个总结与介绍。

一、GAN模型

1、GAN的基本思想

GAN受博弈论中的零和博弈启发,将生成问题视作判别器和生成器这两个网络的对抗和博弈:生成器从给定噪声中(一般是指均匀分布或者正态分布)产生合成数据,判别器分辨生成器的的输出和真实数据。前者试图产生更接近真实的数据,相应地,后者试图更完美地分辨真实数据与生成数据。由此,两个网络在对抗中进步,在进步后继续对抗,由生成式网络得的数据也就越来越完美,逼近真实数据,从而可以生成想要得到的数据(图片、序列、视频等)。

如果将真实数据和生成数据服从两个分布,那么如图所示:
在这里插入图片描述
图中,蓝色虚线为判别分布D,黑色许虚线为真实的数据分布PdataP_{data},绿色实线为生成分布PgP_{g}。GAN从概率分布的角度来看,就是通过D来将生成分布推向真实分布,紧接着再优化D,直至到达图(d)所示,到达Nash均衡点,从而生成分布与真实分布重叠,生成极为接近真实分布的数据。

2、GAN的基本模型

以图片为例,真实图片集的分布 Pdata(x)P_{data}{(x)}xx 是一个真实图片,可以想象成一个向量,这个向量集合的分布就是 PdataP_{data}。我们需要生成一些也在这个分布内的图片,如果直接就是这个分布的话,很难做到。

现在有的 generator 生成的分布可以假设为 PG(x;θ)P_G(x;θ),这是一个由 θθ 控制的分布,θθ 是这个分布的参数(如果是高斯混合模型,那么 θθ 就是每个高斯分布的平均值和方差)。

假设在真实分布中取出一些数据,x1,x2,...,xm{x^1, x^2, ... , x^m},我们想要计算一个似然 PG(xi;θ)P_G(x^i; θ)

对于这些数据,在生成模型中的似然就是:
L=i=1mPG(xi;θ)L=\prod _{i=1}^mP_G(x^i;\theta)

我们想要最大化这个似然,等价于让 generator 生成那些真实图片的概率最大。这就变成了一个最大似然估计的问题了,我们需要找到一个 θθ^* 来最大化这个似然。
在这里插入图片描述
寻找一个 θ* 来最大化这个似然,等价于最大化 log 似然。因为此时这 m 个数据,是从真实分布中取的,所以也就约等于,真实分布中的所有 x 在 PGP_G分布中的 log 似然的期望。

真实分布中的所有 x 的期望,等价于求概率积分,所以可以转化成积分运算,因为减号后面的项和 θ 无关,所以添上之后还是等价的。然后提出共有的项,括号内的反转,max 变 min,就可以转化为 KL 散度的形式了,KL 散度描述的是两个概率分布之间的差异。

所以最大化似然,让 generator 最大概率的生成真实图片,也就是要找一个 θ 让 PGP_G更接近于 PdataP_{data}

那如何来找这个最合理的 θ 呢?
我们可以假设 PG(x; θ) 是一个神经网络。

首先随机一个向量 z,通过 G(z)=xG(z)=x 这个网络,生成图片 x,如何比较两个分布是否相似呢?
只需要取一组样本 z,这组 z 符合一个分布,那么通过网络就可以生成另一个分布 PGP_G,然后来比较与真实分布 PdataP_{data}

神经网络只要有非线性激活函数,就可以去拟合任意的函数。那么分布也是一样,所以可以用一个直正态分布,或者高斯分布,取样去训练一个神经网络,学习到一个很复杂的分布。
在这里插入图片描述
如何来找到更接近的分布,这就是 GAN 的贡献了。先给出 GAN 的公式:

在这里插入图片描述
这个式子的好处在于,固定 GGmaxV(G,D)max V(G,D) 就表示 PGP_GPdataP_{data} 之间的差异。然后要找一个最好的 GG,让这个最大值最小,也就是两个分布之间的差异最小。
在这里插入图片描述
表面上看这个的意思是,对于判别器,D 要让这个式子尽可能的大,也就是对于 x 是真实分布中,D(x) 要接近与 1;对于 x 来自于生成的分布,D(x) 要接近于 0。
对于生成器来说,G 要让式子尽可能的小,让来自于生成分布中的 x,需要生成的数据尽量真,D(x) 尽可能的接近 1。

现在我们先固定 G,来求解最优的 D,也就是说,需要D越大越好:
在这里插入图片描述
对于一个给定的 x,得到最优的 D 如上,范围在 (0,1) 内,把最优的 D 带入
在这里插入图片描述
可以得到:

在这里插入图片描述
在这里插入图片描述
JS 散度 是 KL 散度 的对称平滑版本,表示了两个分布之间的差异,这个推导就表明了上面所说的,固定 G。
在这里插入图片描述
表示两个分布之间的差异,最小值是 2log2-2log2,最大值为 0。

现在我们需要找个 GG,来最小化
在这里插入图片描述
观察上式,当 PG(x)=Pdata(x)P_G{(x)}=P_{data}(x) 时,G 是最优的。

二、 GAN的训练

有了上面推导的基础之后,我们就可以开始训练 GAN 了。结合开头说的,两个网络交替训练,我们可以在起初有一个 G0G_0D0D_0,先训练 D0D_0 找到 :
在这里插入图片描述
然后固定 D0D_0 开始训练 G0G_0, 训练的过程都可以使用 gradient descent,以此类推,训练 D1D_1,G1G_1,D2D_2,G2G_2,…

但是这里有个问题就是,你可能在 D0D_0^* 的位置取到了:
在这里插入图片描述
然后更新 G0G_0G1G_1,可能
在这里插入图片描述
但是并不保证会出现一个新的点 D1D_1^*使得
在这里插入图片描述
这样更新 G 就没达到它原来应该要的效果,如下图所示:
在这里插入图片描述
避免上述情况的方法就是更新 G 的时候,不要更新 G 太多。

知道了网络的训练顺序,我们还需要设定两个 loss function,一个是 D 的 loss,一个是 G 的 loss。下面是整个 GAN 的训练具体步骤:
在这里插入图片描述
上述步骤在机器学习和深度学习中也是非常常见,易于理解。
在这里插入图片描述
简单的来说,就是:

  • 给定 G0G_0,最大化 V(G0,D)V(G_0,D) 以求得 D0D_0^*,即 max[JS(Pdata(x)PG0(x)]max[JS(P_data(x)||P_G0(x)];
  • 固定 D0D_0^*,计算θG1θ_G1θG0θ_G0η(dV(G,D0)/dθG)η(dV(G,D_0^*) /dθ_G) 以求得更新后的 G1G_1
  • 固定 G1G_1,最大化 V(G1,D0)V(G_1,D_0^*) 以求得 D1D_1^*,即 max[JS(Pdata(x)PG1(x)]max[JS(P_data(x)||P_G1(x)];
  • 固定 D1D_1^*,计算θG2θ_G2θG1η(dV(G,D0)/dθG)θ_G1 −η(dV(G,D_0^*) /dθ_G) 以求得更新后的 G2G_2
  • 。。。

在这里插入图片描述

三、存在的问题

问题一

上面 G 的 loss function 还是有一点小问题,下图是两个函数的图像:
在这里插入图片描述
log(1D(x))log(1-D(x)) 是计算时 G 的损失函数。但是,在 D(x) 接近于 0 的时候,这个函数十分平滑,梯度非常的小。这就会导致,在训练的初期,G 想要骗过 D,变化十分的缓慢,而上面的函数,趋势和下面的是一样的,都是递减的。但是它的优势是在 D(x) 接近 0 的时候,梯度很大,有利于训练,在 D(x) 越来越大之后,梯度减小,这也很符合实际,在初期应该训练速度更快,到后期速度减慢。

所以我们把 G 的 loss function 修改为:
在这里插入图片描述
这样可以提高训练的速度。

问题二

还有一个问题,就是经过实验发现,经过许多次训练,loss 一直都是平的,也就是:
在这里插入图片描述
JS 散度一直都是 log2log2PGP_GPdataP_{data} 完全没有交集,但是实际上两个分布是有交集的,造成这个的原因是因为,我们无法真正计算期望和积分,只能使用 sample 的方法,如果训练的过拟合了,D 还是能够完全把两部分的点分开,如下图:
在这里插入图片描述
对于这个问题,我们是否应该让 D 变得弱一点,减弱它的分类能力,但是从理论上讲,为了让它能够有效的区分真假图片,我们又希望它能够 powerful,所以这里就产生了矛盾。

还有可能的原因是,虽然两个分布都是高维的,但是两个分布都十分的窄,可能交集相当小,这样也会导致 JS 散度算出来 =log2=log2,约等于没有交集。

解决的一些方法,有添加噪声,让两个分布变得更宽,可能可以增大它们的交集,这样 JS 散度就可以计算,但是随着时间变化,噪声需要逐渐变小。

问题三

还有一个问题叫 Mode Collapse,如下图:
在这里插入图片描述
这个图的意思是,data 的分布是一个双峰的,但是学习到的生成分布却只有单峰,我们可以看到模型学到的数据,但是却不知道它没有学到的分布。

造成这个情况的原因是,KL 散度里的两个分布写反了
在这里插入图片描述
这个图很清楚的显示了,如果是第一个 KL 散度的写法,为了防止出现无穷大,所以有 PdataP_{data} 出现的地方都必须要有 PGP_G 覆盖,就不会出现 Mode Collapse。

四、项目实战

项目实战请转至:tensorflow学习笔记(十):GAN生成手写体数字(MNIST)

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!