pix2pix

一文读懂GAN, pix2pix, CycleGAN和pix2pixHD

…衆ロ難τιáo~ 提交于 2020-08-09 12:32:01
人员信息 主讲嘉宾 姓名 : 朱俊彦 (Jun-Yan Zhu) 现状 :麻省理工学院博士后(PostDoc at MIT),计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Laboratory, CSAIL) 个人主页 : http://people.csail.mit.edu/junyanz/ 图形学中的尝试:趁手的武器 or 白费功夫? 在传统的图形学管线(pipeline)中,输出图像需要经过建模、材质贴图、光照、渲染等一系列繁琐的步骤(见下图)。 现在大家看到了Deep Learning的潜力,那我们自然的就有个想法:有没有可能使用Deep Learning简化计算机图形学(Computer Graphics)的研究呢? 一个直接的想法是把DNN“倒过来用”。之前的DNN可能是输入一幅图像,输出一个标签(比如说猫),那我们能不能输入“猫”这个字,输出一张猫的照片呢? 很遗憾,答案是No!因为这种任务实在太复杂啦!我们很难让DNN凭空输出图像这样的 高维数据(High dimensional data) (这里的“高维”可以理解成数据量大)。实际上,在很长一段时间里,DNN只能输出数字这种简单的、低分别率的小图像,就像下面这样: 而想要生成想游戏场景这类的图片,这种方法根本没用。所以

python简介(facebook,谷歌,NVIDIA,NASA的python项目)

时光总嘲笑我的痴心妄想 提交于 2020-08-07 21:30:27
(原创声明,转载引用需要指明来源) https://study.163.com/course/courseMain.htm?courseId=1006383008&share=2&shareId=400000000398149 (博主录制) 1.python创始人和发展史 Python编程语言创始人是Guido van Rossum,于1989年底在荷兰国家数学和计算机科学研究所设计出来。Python至今已有31年历史,流行全球,适用于初学者作为第一门编程语言学习。Python最显著特点就是简单,有用,强大,之后会详细介绍。 据说Python这个名字的灵感来自于英国喜剧团体 Monty Python。 2 python特征非常强大 Python在全球大流行的原因很多,主要有以下特征: (1) 易于阅读:Python代码量小,结构化突出,语法约束较少,定义清晰,有详细注解说明。阅读一个良好的 Python 程序就感觉像是在读英语一样,python使你能够专注于解决问题而不是去搞明白语言本身。 (2) 易于学习:相比C语言和Java,Python不过于强调语法,结构简单,语法定义明确,学习起来更加简单。 (3) 无编程经验也可学习:python可作为初学者第一门编程语言学习。无编程经验也可快速学会python。 (4) 适用各类人群和职业:无论学生,老师

【技术博客】生成式对抗网络模型综述

左心房为你撑大大i 提交于 2020-08-06 10:24:22
生成式对抗网络模型综述 作者:张真源 GAN GAN简介 生成式对抗网络( Generative adversarial networks,GANs )的核心思想源自于零和博弈,包括生成器和判别器两个部分。生成器接收随机变量并生成“假”样本,判别器则用于判断输入的样本是真实的还是合成的。两者通过相互对抗来获得彼此性能的提升。判别器所作的其实就是一个二分类任务,我们可以计算他的损失并进行反向传播求出梯度,从而进行参数更新。 GAN的优化目标可以写作: $$\large\min_G\max_DV(D,G)= \mathbb{E} {x\sim p {data}}[\log D(x)]+\mathbb{E}_{z\sim p_z(z)}[log(1-D(G(z)))]$$ 其中$$\log D(x)$$代表了判别器鉴别真实样本的能力,而$$D(G(z))$$则代表了生成器欺骗判别器的能力。在实际的训练中,生成器和判别器采取交替训练,即先训练D,然后训练G,不断往复。 WGAN 在上一部分我们给出了GAN的优化目标,这个目标的本质是在最小化生成样本与真实样本之间的JS距离。但是在实验中发现,GAN的训练非常的不稳定,经常会陷入坍缩模式。这是因为,在高维空间中,并不是每个点都可以表示一个样本,而是存在着大量不代表真实信息的无用空间。当两个分布没有重叠时

让真人照片说话算什么?Adobe新研究让插座都能开口说话

╄→尐↘猪︶ㄣ 提交于 2020-08-05 13:52:32
  机器之心报道    参与:魔王    不仅让真人图像开口说话,油画、素描、漫画等都能动起来!   给出一张面部图像和一段音频,能做什么?AI 有办法,比如让图像中的人开口说话!   此前,机器之心报道过三星人工智能研究中心和伦敦帝国理工学院提出的新型端到端系统,仅凭一张人脸照片和一段音频,就可以生成新的讲话或唱歌视频。   最近我们发现了一项类似的研究,马萨诸塞大学阿默斯特分校、Adobe 研究院等机构提出了一种叫做 MakeItTalk 的新方法,不仅能让真人头像说话,还可以让卡通、油画、素描、日漫中的人像说话。      论文链接:https://arxiv.org/pdf/2004.12992v1.pdf   不信就来看看效果吧!   我们首先看一看真人图像的动态化效果。      看起来不错,那么卡通画呢?         给我一个插座,我能让他成精!   还有油画。      如果我想让图像中的人物摇头晃脑高谈阔论,或者保持沉静端庄呢?      动图 get 不到声画同步效果?请戳下面这个视频:   那么,这是如何做到的呢?   之前的方法往往学习音频和原始像素之间的直接映射进而创建人物的说话动态,而这项研究提出的方法 将输入音频信号中的内容和说话人身份信息分离开来 :音频内容用来稳健地控制嘴唇及周围区域的运动;说话人信息则决定面部表情的细节和人物的头部动态。  

深度学习---抖音漫画算法解密

一个人想着一个人 提交于 2020-08-04 14:43:08
要说最近抖音最火的效果是什么,无疑就是上周推出的漫画效果,这里本人来对该效果进行一些技术分析。 首先,我们先看一下效果展示: 这个效果可谓非常惊艳,真切的将真人照片转换为了漫画风格,而且支持多人处理,也是因此,一时间刷遍了抖音和朋友圈,周末两天的使用量达到了20亿次以上。 对于抖音的漫画效果,包括两个版本,一个是实时处理版本,也就是抖音上线的第一个版本,如图Fig.1所示,可以实时展示漫画效果;另一个是后来的图片版本,如图Fig.2所示,这个版本更加精细;该功能目前同步上线字节跳动旗下的一些app,比如:抖音/剪映/FaceU等。 下面,我们针对这个动漫效果来做一些技术分析,帮助大家了解一下背后的技术秘密。 本人以实时版本为例,经过分析和测试,对该效果做了如下几点总结: 实时版本中,漫画并非全图处理,而是基于人脸矩形框区域进行动漫处理; 人脸之外的背景区域非漫画效果,而是做了一些类似漫画的滤镜处理; 整体漫画分辨率不高; 不同的人脸,漫画人脸风格始终保持一致; 本人多年来一直从事人像特效相关工作,这里,我们先了解一下漫画风格的特点,这里总结如下: 1,线条化,漫画风格的边缘比较突出,主要表现为线条感强烈; 2,颜色单一,一种漫画风格往往使用的颜色数比较少,不会像真实照片中那样包含那么多颜色数,往往只有几种颜色搭配,比如新海诚效果,如图Fig.3所示; 3,人脸五官简单、夸张

一键生成人脸像素图,还能上传到动森!这个项目很好玩

点点圈 提交于 2020-05-07 08:49:04
日本独立开发者 Sato 曾因阿斯伯格综合征辍学离职,后来自学 AI 开发 AI Gahaku 项目(AI 大师级画家),在日美引起轰动,10 天覆盖百万用户。此外,她还做了另一个有趣的项目 PixelMe,可以将输入图像一键转换成像素画。 机器之心报道,参与:魔王、Jamin。 还在用 PS 把图像转换成像素画吗?日本独立开发者 Sato neet 自学人工智能技术,开发出网站 PixelMe,可以将人像照片一键转换成像素画,生成的图像还可以导入到最近大热的游戏《动物森友会》。 不止如此,这个网站还设有宠物模式,主子的照片也可以变成像素画了。 PixelMe 网址: https:// pixel-me.tokyo/en/ 我们先来看一下效果: PixelMe 的图像转换效果。左上为输入图像,右上为 128x128 像素的生成结果,第二行分别为 64x64、48x48 和 32x32 像素的生成结果。 我们可以看到在处理过程中人像照片经过裁剪,只保留头部部分。转换后的图像共有 4 种像素,分别为 128x128、64x64、48x48 和 32x32,用户可以自行选择。 此外,默认转换结果的背景色为无色,用户可以自定义背景颜色。 转换后的 128x128 像素图,背景色设置为天蓝色。 接下来,我们来试一下宠物模式,是时候让猫主子出马了! 效果还可以,不过丑丑的主子似乎更丑了……

Adversarial Self-Defense for Cycle-Consistent GANs

天涯浪子 提交于 2020-04-29 14:33:17
Adversarial Self-Defense for Cycle-Consistent GANs 2020-04-28 17:11:38 Paper : https://arxiv.org/abs/1908.01517 Code : https://github.com/dbash/pix2pix_cyclegan_guess_noise Project page : http://ai.bu.edu/selfadv/ 1. Background and Motivation : 2. Self-Adversarial Attack in Cyclic Models: 在 unpaired 图像转换领域,给定图像 x 和 y,有两个判别器 Da 和 Db,那么循环一致性损失可以构造为: 但是,当 domain A 中的数据远远超过 B 的时候,这个转换的性质就变了,不再是 1-1 了,而是 many-to-one 了。那么,产生器 G 仍然会强迫完美的执行输入的重构,即使输入图像的一些信息已经丢失了。这种现象被描述为 一种 adversarial attack,实际上,任何给定的图像,都是可以产生这样结构化的噪声,使其可以重构出目标图像。 实际上, CycleGAN 和其他模型,利用 cycle-consistency loss 添加了一个非常 low-amplitude

如何用深度学习模型为自己做个漫画画像(含代码流程)

大城市里の小女人 提交于 2020-04-24 12:07:21
最近看到一个特别有意思的开源项目,能把照片自动转化成漫画效果,经过半个小时的调试,终于跑通了。正先给大家看下实际效果,我在网上的随便搜了一张帅哥的证件照片试了下。基本上会把脑袋切出来,然后放大眼睛。 原照: 漫画效果后: 使用的是开源项目: https://github.com/minivision-ai/photo2cartoon 具体原理直接摘录read.me的一段描述: 人像卡通风格渲染的目标是,在保持原图像ID信息和纹理细节的同时,将真实照片转换为卡通风格的非真实感图像。我们的思路是,从大量照片/卡通数据中习得照片到卡通画的映射。一般而言,基于成对数据的pix2pix方法能达到较好的图像转换效果,但本任务的输入输出轮廓并非一一对应,例如卡通风格的眼睛更大、下巴更瘦;且成对的数据绘制难度大、成本较高,因此我们采用unpaired image translation方法来实现。 Unpaired image translation流派最经典方法是CycleGAN,但原始CycleGAN的生成结果往往存在较为明显的伪影且不稳定。近期的论文U-GAT-IT提出了一种归一化方法——AdaLIN,能够自动调节Instance Norm和Layer Norm的比重,再结合attention机制能够实现精美的人像日漫风格转换。 与夸张的日漫风不同,我们的卡通风格更偏写实

基于PaddlePaddle的StarGAN,AttGAN,STGAN算法

我的未来我决定 提交于 2020-04-14 16:09:48
【推荐阅读】微服务还能火多久?>>> 简介 生成对抗网络(Generative Adversarial Network[1], 简称GAN) 是一种非监督学习的方式,通过让两个神经网络相互博弈的方法进行学习,该方法由lan Goodfellow等人在2014年提出。生成对抗网络由一个生成网络和一个判别网络组成,生成网络从潜在的空间(latent space)中随机采样作为输入,其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入为真实样本或生成网络的输出,其目的是将生成网络的输出从真实样本中尽可能的分辨出来。而生成网络则尽可能的欺骗判别网络,两个网络相互对抗,不断调整参数。 生成对抗网络常用于生成以假乱真的图片。此外,该方法还被用于生成影片,三维物体模型等。 下载安装命令 ## CPU版本安装命令 pip install -f https://paddlepaddle.org.cn/pip/oschina/cpu paddlepaddle ## GPU版本安装命令 pip install -f https://paddlepaddle.org.cn/pip/oschina/gpu paddlepaddle-gpu 本项目采用celeba数据集,关于celeba数据集的介绍,详见 https://zhuanlan.zhihu.com/p/35975956 In[1] #解压数据集