pix2pix

韩松、朱俊彦等人提出GAN压缩法:算力消耗不到1/9,现已开源

岁酱吖の 提交于 2021-01-14 03:22:10
选自arXiv 作者:Muyang Li等 机器之心编译 机器之心编辑部 GAN 也可以大幅压缩,MIT 韩松团队的最新研究让众多研究者们为之一振。 生成模型 GAN 是机器学习领域里最为重要的发展方向之一。但这类算法需要消耗巨量算力,大多数研究者已经很难得出新成果。近年来,这一方向颇有被大型机构垄断的趋势。 但近日,来自麻省理工学院(MIT)、Adobe、上海交通大学的研究者提出了一种用于压缩条件 GAN 的通用方法。这一新技术在保持视觉保真度的同时,将 pix2pix,CycleGAN 和 GauGAN 等广泛使用的条件 GAN 模型的计算量减少到 1/9~1/21。该方法适用于多种生成器架构、学习目标,配对或非配对设置。 目前该研究的论文已被 CVPR 2020 大会收录,有关 GAN 压缩框架的 PyTorch 版实现也已开源。 项目链接:https://github.com/mit-han-lab/gan-compression GAN 压缩后的具体性能如何?在研究者们展示的 Demo 中,使用 CycleGAN 为视频中的马添加斑马条纹所需的算力不到 1/16,帧数提高了三倍,而且效果还有所提升: 值得一提的是,该研究所使用的硬件平台是英伟达的边缘 AI 计算芯片 Jetson Xavier GPU。根据官方公布的数据,Jetson Xavier 的 INT8 算力为

干货 | 抖音漫画效果解密

依然范特西╮ 提交于 2020-12-17 23:23:27
点击上方 “ AI算法与图像处理 ”,选择加"星标"或“置顶” 重磅干货,第一时间送达 来源:OpenCV学堂 作者是CSDN博客专家 《图像视频滤镜与人像美颜美妆-算法详解》图书作者 抖音漫画效果 要说最近抖音最火的效果是什么,无疑就是上周推出的漫画效果,这里本人来对该效果进行一些技术分析。 首先,我们先看一下效果展示: Fig.1 实时版本 Fig.2 图片版本 这个效果可谓非常惊艳,真切的将真人照片转换为了漫画风格,而且支持多人处理,也是因此,一时间刷遍了抖音和朋友圈,周末两天的使用量达到了20亿次以上。 对于抖音的漫画效果,包括两个版本,一个是实时处理版本,也就是抖音上线的第一个版本,如图Fig.1所示,可以实时展示漫画效果;另一个是后来的图片版本,如图Fig.2所示,这个版本更加精细;该功能目前同步上线字节跳动旗下的一些app,比如:抖音/剪映/FaceU等。 下面,我们针对这个动漫效果来做一些技术分析,帮助大家了解一下背后的技术秘密。 技术解密 本人以实时版本为例,经过分析和测试,对该效果做了如下几点总结: 1,实时版本中,漫画并非全图处理,而是基于人脸矩形框区域进行动漫处理; 2,人脸之外的背景区域非漫画效果,而是做了一些类似漫画的滤镜处理; 3,整体漫画分辨率不高; 4,不同的人脸,漫画人脸风格始终保持一致; 本人多年来一直从事人像特效相关工作,这里

技术无罪?AI直接“脱掉”女性的衣服!

家住魔仙堡 提交于 2020-11-15 12:33:28
今天上午,又一 AI 偏门应用爆出!用算法直接“脱掉”女性的衣服! 图片来自包图网 看来之前的换脸技术已经无法满足部分人的需求了,又有人想出更加让人震惊的,已经不能叫做是擦边球的应用了。 DeepNude 这款名为 DeepNude 的应用,据说只需要给它一张女性照片,App 即可借助神经网络技术,自动“脱掉”女性身上的衣服,暴露出裸体。对于使用者来说,无需任何技术知识,一键即可获取裸体照片。 目前 DeepNude 的官网已经上线,不仅有 50 美元的付费版,甚至还推出了免费版。 相关可下载的 Windows 和 Linux 应用正在推出,使用免费版图片会出现水印,付费版则会在图片左上角加上“Fake“标注。 而处理效果如何呢,美国媒体 Motherboard 用几十张照片测试,发现如果输入《体育画报泳装特辑》的照片,得到的裸体照片最为逼真。 但这一技术还有缺点,多数照片(尤其是低分辨率照片)经过 DeepNude 处理后,得出的图像会有人工痕迹;而输入卡通人物照片,得出的图像是完全扭曲的。 也就是说,通过这款应用,你可以获取到任何一位女性的“裸体照片”。即便这只是神经网络伪造出来的,但是肉眼看来却十分真实。 并且在此情况下,网络上的所谓「FAKE」水印,也很容易去掉,这项技术一旦广泛使用,将会造成比之前色情换脸技术更大的危害。 技术原理 DeepNude 相当于之前换脸

【Keras】基于SegNet和U-Net的遥感图像语义分割

半城伤御伤魂 提交于 2020-10-13 00:22:33
上两个月参加了个比赛,做的是对遥感高清图像做语义分割,美其名曰“天空之眼”。这两周数据挖掘课期末project我们组选的课题也是遥感图像的语义分割,所以刚好又把前段时间做的成果重新整理和加强了一下,故写了这篇文章,记录一下用深度学习做遥感图像语义分割的完整流程以及一些好的思路和技巧。 数据集 首先介绍一下数据,我们这次采用的数据集是CCF大数据比赛提供的数据(2015年中国南方某城市的高清遥感图像),这是一个小数据集,里面包含了5张带标注的大尺寸RGB遥感图像(尺寸范围从3000×3000到6000×6000),里面一共标注了4类物体,植被(标记1)、建筑(标记2)、水体(标记3)、道路(标记4)以及其他(标记0)。其中,耕地、林地、草地均归为植被类,为了更好地观察标注情况,我们将其中三幅训练图片可视化如下:蓝色-水体,黄色-房屋,绿色-植被,棕色-马路。更多数据介绍可以参看 这里 。 现在说一说我们的数据处理的步骤。我们现在拥有的是5张大尺寸的遥感图像,我们不能直接把这些图像送入网络进行训练,因为内存承受不了而且他们的尺寸也各不相同。因此,我们首先将他们做随机切割,即随机生成x,y坐标,然后抠出该坐标下256*256的小图,并做以下数据增强操作: 原图和label图都需要旋转:90度,180度,270度 原图和label图都需要做沿y轴的镜像操作 原图做模糊操作

吴恩达Deeplearning.ai国庆节上新:生成对抗网络(GAN)专项课程

南楼画角 提交于 2020-10-06 09:35:37
Coursera 刚刚上新了 GAN 的专项课程,或许在这个国庆假期,你应该学习一波了。 作者:蛋酱 生成对抗网络(Generative Adversarial Network,GAN)是当前功能最强大的机器学习模型之一,其能够生成逼真的图像、视频和语音输出结果。基于 GAN 的应用十分广泛,比如防御对抗攻击和数据匿名化来保护隐私,以提升网络安全性,再比如生成新图像,为黑白图像着色、提高图像分辨率、2D 图像转 3D 等技术。 随着算力的增强,GAN 的普及程度和功能也不断提升,开启了许多新的方向:比如生成大量数据用来训练模型,让无监督模型生成更加清晰、准确的输出图像,同时也为相近研究领域提供了对抗学习、对抗样本、模型鲁棒性等方面的启示。 近日,DeepLearning.AI 推出了《生成对抗网络(GAN)专项课程》,系统介绍了使用 GAN 生成图像的理论及方法。此外还包括机器学习偏见、隐私保护等社会影响话题的讨论。 这门课程适用于对机器学习感兴趣并希望了解 GAN 的工作原理的软件工程师、学生和研究者。专项课程内容尽可能做到通俗易懂,让进入课程的人都真正理解 GAN 并学会使用。 但在进入这门课程之前,学习者应该具备关于深度学习、卷积神经网络的知识,具备一定的 Python 技能和深度学习框架(TensorFlow、Keras、PyTorch)的使用经验,且精通微积分、线性代数

【Keras】基于SegNet和U-Net的遥感图像语义分割

删除回忆录丶 提交于 2020-10-04 03:54:44
上两个月参加了个比赛,做的是对遥感高清图像做语义分割,美其名曰“天空之眼”。这两周数据挖掘课期末project我们组选的课题也是遥感图像的语义分割,所以刚好又把前段时间做的成果重新整理和加强了一下,故写了这篇文章,记录一下用深度学习做遥感图像语义分割的完整流程以及一些好的思路和技巧。 数据集 首先介绍一下数据,我们这次采用的数据集是CCF大数据比赛提供的数据(2015年中国南方某城市的高清遥感图像),这是一个小数据集,里面包含了5张带标注的大尺寸RGB遥感图像(尺寸范围从3000×3000到6000×6000),里面一共标注了4类物体,植被(标记1)、建筑(标记2)、水体(标记3)、道路(标记4)以及其他(标记0)。其中,耕地、林地、草地均归为植被类,为了更好地观察标注情况,我们将其中三幅训练图片可视化如下:蓝色-水体,黄色-房屋,绿色-植被,棕色-马路。更多数据介绍可以参看 这里 。 现在说一说我们的数据处理的步骤。我们现在拥有的是5张大尺寸的遥感图像,我们不能直接把这些图像送入网络进行训练,因为内存承受不了而且他们的尺寸也各不相同。因此,我们首先将他们做随机切割,即随机生成x,y坐标,然后抠出该坐标下256*256的小图,并做以下数据增强操作: 原图和label图都需要旋转:90度,180度,270度 原图和label图都需要做沿y轴的镜像操作 原图做模糊操作

28篇论文、6大主题带你一览CVPR2020研究趋势

那年仲夏 提交于 2020-08-14 01:08:16
     编译 | 陈大鑫   编辑 | 丛 末   首度于线上召开的CVPR 2020 会议已经落下帷幕。今年,大会共有1467篇论文被接收,共举办了29个Tutorial、64个Workshop,线上与会者人数达 7600人。大量的论文,加上今年新采用虚拟会议的形式,曾一度让会议浏览器不堪重负(浏览速度非常慢)。   为了让大家更好地掌握今年会议的总体研究趋势,一位深度学习专业的博士生Yassine Ouali 专门撰写了一篇博客,总结了一些引起他关注的论文,以呈现今年会议的大致面貌。    我们先来看下 CVPR 2020 官方的相关统计数据:   CVPR 往年的增长趋势仍然继续:作者人数增加了20%,提交论文的数量增加了29%,同时为了适应这种扩张,审稿人和领域主席都有增加      今年会议的注册人数共有6424人,相比2019年增加了一千多人。在被接收的1467篇论文中,有335篇 Oral 论文。         与去年相似,就接受论文而言,中国是CVPR的第一贡献者,其中来自清华大学的作者数量最多,其次是美国(按国家)和Google(按组织)。      不出所料,被接收的论文主题多数集中在与学习、识别、检测和理解有关的主题上。但是,人们对诸如高效标签方法(例如,迁移学习),图像合成和机器人感知等相对较新的领域越来越感兴趣

28篇论文、6 大主题带你一览 CVPR 2020 研究趋势

為{幸葍}努か 提交于 2020-08-11 22:50:14
     编译 | 陈大鑫   编辑 | 丛 末   首度于线上召开的CVPR 2020 会议已经落下帷幕。今年,大会共有1467篇论文被接收,共举办了29个Tutorial、64个Workshop,线上与会者人数达 7600人。大量的论文,加上今年新采用虚拟会议的形式,曾一度让会议浏览器不堪重负(浏览速度非常慢)。   为了让大家更好地掌握今年会议的总体研究趋势,一位深度学习专业的博士生Yassine Ouali 专门撰写了一篇博客,总结了一些引起他关注的论文,以呈现今年会议的大致面貌。    我们先来看下 CVPR 2020 官方的相关统计数据:   CVPR 往年的增长趋势仍然继续:作者人数增加了20%,提交论文的数量增加了29%,同时为了适应这种扩张,审稿人和领域主席都有增加      今年会议的注册人数共有6424人,相比2019年增加了一千多人。在被接收的1467篇论文中,有335篇 Oral 论文。         与去年相似,就接受论文而言,中国是CVPR的第一贡献者,其中来自清华大学的作者数量最多,其次是美国(按国家)和Google(按组织)。      不出所料,被接收的论文主题多数集中在与学习、识别、检测和理解有关的主题上。但是,人们对诸如高效标签方法(例如,迁移学习),图像合成和机器人感知等相对较新的领域越来越感兴趣

【飞桨】【PaddlePaddle】【论文复现】StarGAN v2论文及其前置:GAN、CGAN、pix2pix、CycleGAN、pix2pixHD、StarGAN学习心得

天涯浪子 提交于 2020-08-11 15:34:49
目录 GAN CGAN pix2pix CycleGAN pix2pixHD StarGAN PaddlePaddle: 百度顶会论文复现营 . GAN GAN,即生成对抗网络,其网络结构主要包含一个生成器G和一个判别器D。首先,一个n维噪声输入到模型中,由生成器生成一个fake图像(根据目标而定),接着传入真实图像,resize成与fake图像相同大小,共同输入到判别器D中,送入训练网络中,训练趋势是使生成器生成越来越逼真,可以“以假乱真”的假图像,而判别器的精度也不断提升,最后,判别器D无法区分生成器G生辰的fake图像,得到的真假图像概率为0.5,达到理想状态。经过这样的一种“抗衡”生成器G的图像生成能力越来越强,整个网络的目的也就达到了。 CGAN CGAN(条件生成对抗网络)主要针对GAN的随机性问题,在生成器和判别器中都加入了一个标签作为输入,从它的损失函数中可以看出,D和G的概率表达都变成了条件概率,这样,对于不同的标签y,就有不同的函数表达,从而可以完成特定的任务。 pix2pix Pix2pix主要的核心思想是“对应关系”,以草图代替噪声作为输入,由生成器生成一个图片,再将草图和G生成的图片共同作为D的输入,这样就可以把草图变成相应的图片了。 这里附上一个有趣的小链接:https://affinelayer.com/pixsrv/,可以把自己绘制的草图转化成猫咪。

ECCV 2020 | 基于对抗一致性,非匹配图像转换效果真假难辨

拜拜、爱过 提交于 2020-08-10 04:21:01
      本 文介绍的 是ECCV 2020 论 文《Unpaired Image-to-Image Translation using Adversarial Consistency Loss》,论文作者来自北大。本论文解读首发于知乎(https://zhuanlan.zhihu.com/p/156092551)。   作者 | Hyperplane PKU   编辑 | 丛 末       论文地址: https://arxiv.org/abs/2003.04858    1    问题引入   在图像处理、图形学和计算机视觉中有大量问题是将一个图片域的图片转换到另一个图片域,比如前一阵刷屏朋友圈的换脸应用。这种问题可以统称为图像到图像转换(image-to-image translation)[1]。目前基于深度学习,特别是生成对抗网络(generative adversarial networks, GANs)[2] 的方法在图像到图像转换中取得了很大的进步。   然而,目前的主流方法有若干局限性,导致不能支持很多应用。其中最大的一个局限性是目前的主流方法基于循环一致性损失(cycle consistency loss,以下简称cycle loss)[2]。Cycle loss 缺陷的主要原因在于其要求转换回来的图片要和原图完全一致(图2右侧 , )