自然语言处理(五)时下流行的生成模型
近期流行的生成模型 本次介绍近期大火的三大类生成模型,这三大类模型从三个不同角度切入,居然都能有惊人的效果。而且深入挖掘发现它们有很多相似的地方。 1. Generative Adversarial Nets 生成对抗网络(GANs)是当今最火的生成模型,从2014年 Goodfellow 论文发表开始,其引用量已是4000+了。而且GANs家族人丁兴旺,从最原始的GANs开始,家族明星是一个接一个,如cGAN, DCGAN, WGAN,WGAN-GP,LSGAN,BEGAN,infoGAN,seqGAN,cycle-GAN,star-GAN等等,每一个出来都是一个新闻。 GANs的火热最直接的原因,其原理直观,可解释。生成模型的目的常常是为得到数据X的分布p(X)。而常常我们对数据的分布一无所知,甚至很多数据分布是没有解析式的。GANs来求解p(X)时,走了一条不同寻常的路。GANs采用对抗的方式来学习,或者说是模仿(mimic)的方式来学习。GANs有个生成器(G),它的目的是生成可以以假乱真的数据,为了更好的训练G,GANs引入一个判别器(D),它的工作是当一个样本经过它之后,它能判别出样本是真实的数据样本还是生成器生成的样本,即它输入一个值来代表样本为真的程度。正如原文的例子一样,G相当于一个假币制造者,而D 是警察。就在这个互相对抗中,G生成的样本越来越像直实数据