cyclegan

韩松、朱俊彦等人提出GAN压缩法:算力消耗不到1/9,现已开源

岁酱吖の 提交于 2021-01-14 03:22:10
选自arXiv 作者:Muyang Li等 机器之心编译 机器之心编辑部 GAN 也可以大幅压缩,MIT 韩松团队的最新研究让众多研究者们为之一振。 生成模型 GAN 是机器学习领域里最为重要的发展方向之一。但这类算法需要消耗巨量算力,大多数研究者已经很难得出新成果。近年来,这一方向颇有被大型机构垄断的趋势。 但近日,来自麻省理工学院(MIT)、Adobe、上海交通大学的研究者提出了一种用于压缩条件 GAN 的通用方法。这一新技术在保持视觉保真度的同时,将 pix2pix,CycleGAN 和 GauGAN 等广泛使用的条件 GAN 模型的计算量减少到 1/9~1/21。该方法适用于多种生成器架构、学习目标,配对或非配对设置。 目前该研究的论文已被 CVPR 2020 大会收录,有关 GAN 压缩框架的 PyTorch 版实现也已开源。 项目链接:https://github.com/mit-han-lab/gan-compression GAN 压缩后的具体性能如何?在研究者们展示的 Demo 中,使用 CycleGAN 为视频中的马添加斑马条纹所需的算力不到 1/16,帧数提高了三倍,而且效果还有所提升: 值得一提的是,该研究所使用的硬件平台是英伟达的边缘 AI 计算芯片 Jetson Xavier GPU。根据官方公布的数据,Jetson Xavier 的 INT8 算力为

【学术报告】阿里巴巴洪佳鹏:生成对抗网络和隐层属性交换的人脸属性迁移

試著忘記壹切 提交于 2020-12-23 08:25:23
不到现场,照样看最干货的学术报告! 嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。 2018年8月4月,由北京理工 大学大数据创新学习中心与中国科学院人工智能联盟标准组联合主办的“2018深度强化学习:理论与应用”学术研讨会,学界与业界顶级专家济济一堂,共同分享深度 强化学习领域的研究成果。 阿里巴巴淘宝技术部图像算法工程师洪佳鹏以生成对抗网络和隐层属性交换的人脸属性迁移为主题做了报告,以下分享内容根据嘉宾口头分享整理。 生成对抗网络和隐层属性交换的人脸属性迁移 洪佳鹏 阿里巴巴淘宝技术部图像算法工程师 我的报告内容主要涉及生成对抗网络和图像翻译,首先简单介绍生成对抗网络。生成对抗网络分为两部分,就是生成器和判别器,二者是存在对抗的。生成体现在生成器从无到有,对抗体现在生成器和判别器的目标。可以从目标函数看出,判别器的任务就是判别真假样本,生成器的任务就是要骗过它,使得生成的样本判定成一个真的样本。生成器生成样本,经过判别器的判别以后反馈给它的信息是生成的还不够好,也会引导继续生成更好的样本。 下面来看一下图像到图像翻译的任务,通常简称为图像翻译

干货 | 抖音漫画效果解密

依然范特西╮ 提交于 2020-12-17 23:23:27
点击上方 “ AI算法与图像处理 ”,选择加"星标"或“置顶” 重磅干货,第一时间送达 来源:OpenCV学堂 作者是CSDN博客专家 《图像视频滤镜与人像美颜美妆-算法详解》图书作者 抖音漫画效果 要说最近抖音最火的效果是什么,无疑就是上周推出的漫画效果,这里本人来对该效果进行一些技术分析。 首先,我们先看一下效果展示: Fig.1 实时版本 Fig.2 图片版本 这个效果可谓非常惊艳,真切的将真人照片转换为了漫画风格,而且支持多人处理,也是因此,一时间刷遍了抖音和朋友圈,周末两天的使用量达到了20亿次以上。 对于抖音的漫画效果,包括两个版本,一个是实时处理版本,也就是抖音上线的第一个版本,如图Fig.1所示,可以实时展示漫画效果;另一个是后来的图片版本,如图Fig.2所示,这个版本更加精细;该功能目前同步上线字节跳动旗下的一些app,比如:抖音/剪映/FaceU等。 下面,我们针对这个动漫效果来做一些技术分析,帮助大家了解一下背后的技术秘密。 技术解密 本人以实时版本为例,经过分析和测试,对该效果做了如下几点总结: 1,实时版本中,漫画并非全图处理,而是基于人脸矩形框区域进行动漫处理; 2,人脸之外的背景区域非漫画效果,而是做了一些类似漫画的滤镜处理; 3,整体漫画分辨率不高; 4,不同的人脸,漫画人脸风格始终保持一致; 本人多年来一直从事人像特效相关工作,这里

GAN基础

核能气质少年 提交于 2020-12-04 16:58:23
Generative Adversarial Networks GAN框架 GAN框架是有两个对象( discriminator,generator)的对抗游戏。 generator 是一个生成器,generator产生来自和训练样本一样的分布的样本。 discriminator 是一个判别器,判别是真实数据还是generator产生的伪造数据。discriminator使用传统的监督学习技术进行训练,将输入分成两类(真实的或者伪造的)。 generator训练的目标就是欺骗判别器。 游戏中的两个参与对象由两个函数表示,每个都是关于输入和参数的可微分函数。discriminator是一个以 x 作为输入和使用θ (D) 为参数的函数D,D(x)是指判断输入样本x是真实样本的概率 ; generator由一个以z为输入使用 θ (G) 为参数的函数G,G(z)是指输入样本z产生一个新的样本,这个新样本希望接近真实样本的分布。 discriminator与generator都用两个参与对象的参数定义的代价函数。 discriminator希望仅控制住 θ (D) 情形下最小化 J (D) (θ (D) , θ (G) ) 。generator希望在仅控制 θ (D) 情形下最小化 J (G) (θ (D) ,θ (G) ) 。 因为每个参与对象的代价依赖于其他参与对象的参数

建造自己的「天空之城」,密歇根大学博士后的这项研究可以虚空造物、偷天换日

落爺英雄遲暮 提交于 2020-10-27 12:59:06
看过宫崎骏动画电影《天空之城》的小伙伴,想必偶尔会向往那座神秘的空中岛屿拉普达吧。近日,密歇根大学安娜堡分校博士后研究员 Zhengxia Zou 进行了一项研究,不仅可以创建空中堡垒,更可以转变场景中的天气和光照,让你有身临其境的感觉。此外,这项研究完全基于视觉,能够很好地应用于在线或离线场景,且可以执行实时处理。 哈尔的移动城堡?天空之城?这幅图是否让你想起了这两部电影中的场景…… 上:《天空之城》剧照;下:《哈尔的移动城堡》剧照。 是电影场景变为现实了吗?真的有人建造了一座空中楼阁?答案是也不是。 这座空中城堡的确是人为「构建」的,但并非真实存在。它是密歇根大学博士后研究员 Zhengxia Zou 近期一项研究所呈现的效果。 荒野、公路、疾驰的汽车,还有天边的巨型神秘建筑物,有科幻 / 末世电影内味儿了。然而,这幅场景竟然是从晴空万里的画面转换而成的。公路片变身科幻片?! 别急,还有大招。(以下示例左图为原始画面,右图为处理后画面。) 右图场景是不是更像《天空之城》了? 这场景让人想起一句歌词「打开这深夜,抚摸寒星光,我只想走进圆月亮」。 除了改变天空(比如增加悬浮城堡、改变色彩和云朵等),这项技术还能变换场景中的天气和光照。 今日天气多云转晴。 雷暴预警!一瞬间天昏地暗,雷电交加。 看起来,这项技术似乎都可以用到电影业了。那它是如何做到的呢?

原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了

被刻印的时光 ゝ 提交于 2020-10-27 05:52:26
Python实战社群 Java实战社群 长按识别下方二维码, 按需求添加 扫码关注添加客服 进Python社群▲ 扫码关注添加客服 进Java社群 ▲ 鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI “本文经AI新媒体量子位(公众号 ID: QbitAI)授权转载,转载请联系出处” 虽然每天早晨甚至无法从50平米的地铺上醒来,但偶尔刷刷知乎,还是会被这类问题吸引住眼球—— 穿越到霸道总裁小说的世界,是一种怎样的体验? 最近,一个能满足这种幻(xia)想的快手AI特效火了。 不仅老铁们纷纷穿越,许多明星大V也贡献了自己的「言情小说脸」。 你看这位李雪琴老师,就瞬间女主光环加持,慵懒的眼神里又多了几分灵动的忧郁。 硬糖少女刘些宁,更是引得网友直呼:这不就是霸道总裁小说封面女主本主吗? 还有歪嘴战神本神,到了二次元的世界,还是熟悉的配方,熟悉的味道。 看到这些,我不禁产生了一个大胆的想法,让老婆们也一起穿越,不也就是举起手机就能搞定的事? △ 新垣结衣 嗯,新垣结衣是二次元走出来的实锤了! 更妙的是,这样一个AI特效,不仅能实时捕捉每一个表情变化,模仿咆哮帝也能hold得住: △ 明道 细节处理也着实奥利给,描眉画眼线这样的动作也不会让面部出现奇怪的扭曲。 打破次元壁的技术 所以快手这一堪称「穿越神器」的AI特效,在技术上是如何实现的呢? 快手工程师介绍

吴恩达Deeplearning.ai国庆节上新:生成对抗网络(GAN)专项课程

南楼画角 提交于 2020-10-06 09:35:37
Coursera 刚刚上新了 GAN 的专项课程,或许在这个国庆假期,你应该学习一波了。 作者:蛋酱 生成对抗网络(Generative Adversarial Network,GAN)是当前功能最强大的机器学习模型之一,其能够生成逼真的图像、视频和语音输出结果。基于 GAN 的应用十分广泛,比如防御对抗攻击和数据匿名化来保护隐私,以提升网络安全性,再比如生成新图像,为黑白图像着色、提高图像分辨率、2D 图像转 3D 等技术。 随着算力的增强,GAN 的普及程度和功能也不断提升,开启了许多新的方向:比如生成大量数据用来训练模型,让无监督模型生成更加清晰、准确的输出图像,同时也为相近研究领域提供了对抗学习、对抗样本、模型鲁棒性等方面的启示。 近日,DeepLearning.AI 推出了《生成对抗网络(GAN)专项课程》,系统介绍了使用 GAN 生成图像的理论及方法。此外还包括机器学习偏见、隐私保护等社会影响话题的讨论。 这门课程适用于对机器学习感兴趣并希望了解 GAN 的工作原理的软件工程师、学生和研究者。专项课程内容尽可能做到通俗易懂,让进入课程的人都真正理解 GAN 并学会使用。 但在进入这门课程之前,学习者应该具备关于深度学习、卷积神经网络的知识,具备一定的 Python 技能和深度学习框架(TensorFlow、Keras、PyTorch)的使用经验,且精通微积分、线性代数

AI研习丨专题:单图像深度学习去雨研究的最新进展文

孤街醉人 提交于 2020-10-05 06:36:11
   摘 要   单图像去雨是图像复原的重要研究方向之一。单图像深度学习去雨方法中,全监督去雨方法模型的输入均为配对数据,因此尽管利用大量的合成配对数据取得了很好的效果,但处理真实雨图时会产生性能退化;此外无法利用真实世界中的大量无标签雨图,因此无法很好地解决真实图像去雨任务。鉴于此,基于部分或零配对数据的无监督/ 半监督去雨算法则体现出更大的优势。本文将重点围绕无监督与半监督单图像深度学习去雨研究的最新进展进行简要回顾及分析,并力图为后续的研究提供一些思路。    关 键 字   图像复原;单图像去雨;无监督去雨;半监督去雨;深度表示学习   图像复原是利用退化过程的某些先验知识建立相应的数学模型,通过求解逆问题对原始图像进行估计进而复原被退化的图像。但在退化过程中,噪声和干扰因素同时存在,给图像的复原带来了诸多不确定性和挑战。随着深度学习研究热潮的到来,图像复原仍然是目前计算机视觉领域的重要方向,例如图像去雨、图像去雾和图像去模糊等,是诸多高层视觉任务的重要预处理步骤。雨是最常见的动态恶劣天气,因此本文重点探讨图像去雨任务。特别地,图像去雨分为静态单图像去雨和动态序列图像(即视频)去雨。和视频去雨相比,单图像去雨由于缺乏时域信息因而更具挑战性。图1 展示了部分合成的雨图像和真实的雨图像的对比,从中可见真实雨图中的雨纹信息是更加复杂的、多样化的和多方向的

Ubuntu18.04 下配置lua版本的CycleGAN

不想你离开。 提交于 2020-08-16 18:44:30
本地环境 linux版本:18.04.1-Ubuntu gcc/g++环境:gcc (Ubuntu 7.5.0-3ubuntu1~18.04) 7.5.0 CUDA 版本: 10.1 显卡驱动版本:440.100 CycleGAN配置 安装torch环境 因为原版本的torch安装的时候在CUDA10以上的版本会出现错误,所以直接安装修改过的适合CUDA10的版本: https://github.com/nagadomi/distro.git #cuda10,默认是 按照torch官网的步骤安装lua环境和torch,应该是没有大问题 安装CycleGAN依赖 luarocks install nngraph luarocks install class luarocks install https://raw.githubusercontent.com/szym/display/master/display-scm-0.rockspec nngraph 和 class的安装基本没有什么问题,若因为 The Great Wall的话,在控制台可以试试 proxychains, 安装指令为: sudo apt-get install proxychains 在安装display依赖包的时候,因为依赖 async,但是async好久没有更新,在gcc/g++-7会出现 -Werror

傻瓜式无限P图,MIT朱俊彦团队“重写”深度生成模型

99封情书 提交于 2020-08-12 14:27:26
     作者 | 陈大鑫   编辑 | 丛末   复制一位老人的胡子,把胡子粘贴到全部孩子的眉毛上。该如何实现这样的操作呢?   让我们从塔尖生树的问题说起。   如何在教堂的塔尖上生成一棵树?——当然是使用P图软件啦!      但是P图软件一次只能修改一张图片,难道就没有那种能一键无限张P图的软件吗?   近日,来自MIT朱俊彦团队的一篇论文《Rewriting a Deep Generative Model》就很巧妙地 解决了这个问题,目前该论文已被接收为ECCV 2020 Oral,且代码已开源。   在这篇《重写深度生成模型》论文中,作者不是单独地对一张张图片进行编辑,而是很大胆地提出直接对深度网络的内部生成模型动刀编辑:      在这个规则编辑器中,深度生成模型G(z,w_0) 作为输入,这时模型的初始权重是 w_0,预训练模型G映射一个随机输入向量z到一个真实图像,将权重w_0改成w_1即可产生新的模型作为输出。   利用现有的模型能产生无限数量的图像,那么改变生成模型的规则就能让我们创造新规则下的无限张可改变图像。如下图所示,通过把塔尖的生成模型重写为“树”,一次操作即可在所有教堂的塔尖上都生成一棵树:       1    傻瓜式操作   那这么神奇的重写模型操作起来容易吗,够傻瓜式吗?   为了让读者更好地亲自编辑模型,作者特意创建了一个用户交互界面