第一部分:GAN是什么
让我们详细了解一下:
生成器将随机噪声矢量作为输入;
生成器将执行多次转置卷积,以对噪声进行上采样,最终生成图像。
它从现实世界样本(真实样本)或生成的图像样本(假样本)中获取随机输入;
顾名思义,判别器只干一件事:判别输入的“真是样本”还是“假样本”。
对GAN工作原理的技术理解:
生成器试图最小化真实图像和伪图像之间的差距,以欺骗判别器;
判别器试图最大化对真实图像的理解,以便区分假样本。
在上面的图像中,D(x)只是图像为“真实样本”的概率。
正确识别实样本图像,因此D(x)必须接近1;
同时,同样正确识别假图像,因此D(G(Z))必须接近1。
对于生成器:
生成器与D(x)的准确度无关,只有D(G(z))必须被标识为真实样本,因此其必须尽可能接近1。
这是Ian Goodfellow的原始论文链接。
这是“GAN-GAN系列(从开始到结束)”—— 由Jonathan Hui撰写可以深入了解GAN及其应用的最佳资料之一。
第二部分:有趣部分
训练完生成器后,其隐变量已充分了解了数据集的底层结构。
在我们的示例中,我们将使用的模型已经了解了人脸的结构。该模型是由NVIDIA研究人员开发的StyleGAN。
我们的目标是利用这种结构并操纵它生成有趣的东西。
通过生成器生成随机面孔;
使用这些图像作为数据集,训练ResNet从源图像到其潜在的矢量代码(初步估计值);
我们将使用经过预训练的ResNet,可以找到查询图像的潜代码(粗略估算);
然后,以该图像为起点,计算与“原始图像”的L2损失,并相应地更新隐矢量代码(同时固定发生器本身的权重)。
这是第二部分的视频——更新估计的隐代码
在视频的后半部分,由于隐代码估计收敛到查询的真实图像的代码,因此更新很难观察到。
第三部分. 时间变形
好吧,也许不是这个。
我们需要另一个数据集,然后再次生成随机面孔数据库。
我们应用预训练的属性分类器来获取诸如“性别”,“年龄”,“微笑”等属性。
这样做是为了让我们可以将潜在代码映射到图像属性以找到相应的模式。
我们需要了解,StyleGAN的潜在空间是一个高度复杂的512维空间。
可以观察到,在隐空间中,这些属性可以很容易地通过“线性超平面”来分离。
沿该平面取法线将为我们提供改变该属性的方向。
译者简介
张一豪,同济大学研一在读,研究方向为交通数据挖掘与人工智能。大数据时代,数据与算法之美很难用只言片语表达,但数据分析要言之有物,行之有效,重于创新,成于推理。一个交通规划专业的小白,正在数据挖掘与分析的基础上探索交通规划的全新领域。
翻译组招募信息
工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。
你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。
其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。
点击文末“阅读原文”加入数据派团队~
转载须知
如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:datapi),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。
发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。
点击“阅读原文”拥抱组织
来源:CSDN
作者:数据派THU
链接:https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/103193188