原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了

被刻印的时光 ゝ 提交于 2020-10-27 05:52:26

Python实战社群

Java实战社群

长按识别下方二维码,按需求添加

扫码关注添加客服

进Python社群▲

扫码关注添加客服

进Java社群

鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

“本文经AI新媒体量子位(公众号 ID: QbitAI)授权转载,转载请联系出处”

虽然每天早晨甚至无法从50平米的地铺上醒来,但偶尔刷刷知乎,还是会被这类问题吸引住眼球——

穿越到霸道总裁小说的世界,是一种怎样的体验?

最近,一个能满足这种幻(xia)想的快手AI特效火了。

不仅老铁们纷纷穿越,许多明星大V也贡献了自己的「言情小说脸」。

你看这位李雪琴老师,就瞬间女主光环加持,慵懒的眼神里又多了几分灵动的忧郁。

硬糖少女刘些宁,更是引得网友直呼:这不就是霸道总裁小说封面女主本主吗?

还有歪嘴战神本神,到了二次元的世界,还是熟悉的配方,熟悉的味道。

看到这些,我不禁产生了一个大胆的想法,让老婆们也一起穿越,不也就是举起手机就能搞定的事?

新垣结衣

嗯,新垣结衣是二次元走出来的实锤了!

更妙的是,这样一个AI特效,不仅能实时捕捉每一个表情变化,模仿咆哮帝也能hold得住:

明道

细节处理也着实奥利给,描眉画眼线这样的动作也不会让面部出现奇怪的扭曲。

打破次元壁的技术

所以快手这一堪称「穿越神器」的AI特效,在技术上是如何实现的呢?

快手工程师介绍,相比于此前的一些特效玩法,「手绘」系列最大的不同,是需要兼顾真实感、美感以及卡通效果三方面的要求。

也就是说,既要最大程度保留用户本人的五官和外形特征,还要具备手绘风格的美学和艺术效果。

这就对整体风格和局部细节的呈现都提出了高要求。

为此,快手特效中心团队研发了一个基于GAN(对抗生成网络)的图像翻译和风格迁移学习训练框架,结合此前CycleGAN、U-GAT-IT等技术的主要优点,并根据实际需求进行了定制化的开发和优化。

CycleGAN

CycleGAN可以说是GAN中的「前辈高人」,由UC伯克利的朱俊彦团队提出,影响了后续一众「换脸」研究。

其最大的突破,是打破了图像风格转换中,需要成对图片训练集的限制。

也就是说,在源域和目标域之间,无需建立训练数据间一对一的映射,就可实现风格迁移。

就像下图中右侧所示。

基于此,去年香港中文大学贾佳亚教授团队,就曾提出过一个加强版的CycleGAN,可以将人脸照片转化成如同手绘图像,甚至还能反向转换,将二次元的卡通图像,转换成现实中可能的样子。

U-GAT-IT

U-GAT-IT,是一种无监督图到图翻译算法,由韩国游戏公司NCSOFT开发。

同样是打破次元壁的神器:

具体而言,U-GAT-IT由两个GAN组成。

一个负责把现实世界的自拍照进二次元,即从源领域到目标域的翻译。

另一个则反过来,能把二次元人物拉回到三次元中,即从目标域到源领域的翻译。

同样,也不需要成对的训练数据。

为了生成更加逼真的图像,U-GAT-IT还以端到端的方式引入了注意力机制和可学习归一化方法。

在这一次快手手绘特效的实现上,训练同样以大量非配对数据为基础,并加上了一部分人工修图得到的配对数据作为引导,通过混合训练的方式,既快速又精准地得到整体上较为接近手绘的风格化效果。

另外,由于手绘数据采集成本较高,所以研究人员还采用了迁移学习的方法进行数据扩增,并根据快手用户日常进行的人像拍摄场景分布规律,进行了适配。

细节增强方面,快手则通过加入人脸关键点、人像语义分割等AI技术,精确地定位到对应的关键区域,并在整体的基础上重点加强局部区域的细节调整,以全局与局部的混合训练有效的提升了整体效果的呈现。

在此基础之上,针对手绘中特殊的线条和高光图案,研发人员也设计了对应的损失函数进行监督学习。

而针对短视频的形式,快手的手绘特效还要考虑保障实时效果,人怎么动,画面也要跟得上。

这就涉及到手机计算能力与模型计算量的适配脸部效果跟背景效果和素材的适配视频效果流畅性等诸多因素。

为此,从算法,到工程、特效、涉及等多个环节,研发人员都进行了大量的尝试,以及细致的优化、打磨。

快手技术实力:不止于AI特效本身

打造这款特效的,是快手的Y-tech技术团队。

快手Y-tech是快手在人工智能等前沿领域的探索者和先行者,以研发前沿科技、提升用户体验、创造用户价值为使命,致力于在计算机视觉、机器学习 、深度学习和计算机图形学等领域开展技术研究和业务落地。

其实,从技术的角度上来说,对于快手的工程师们而言,追求效果上的极致,还不是全部目标……

更重要的一点,是要覆盖高、中、低端各种手机型号,让每一个档次的机型的能力都发挥到最大。

一方面,是因为每一次的产品落地,都关系到4亿用户的实际体验,牵一发而动全身。

另一方面,快手的用户特性决定,用户手中的手机型号分布会很广,不同机型算力和内存资源差异很大。

为了能够让每一位天南地北的老铁都能够无差别地享受AI技术带来的乐趣,在技术的设计方案上,就既要力求让高端机充分发挥计算能力,给用户带来极致体验,同时也要在中低端机上做到逼近高端机的效果。

也就是说,不管算力高低,在最后的用户体验上,都要实现GAN的「秒变」。

这事实上涉及了三方面的指标:准确率能耗延迟。毕竟除了特效的实时性,如果一次使用电量就哗哗掉,手机温度蹭蹭涨,那也非常影响用户体验。

而要在跨度如此之大、很大一部分算力并无优势的硬件上,兼顾这三个指标,其中挑战不可谓不大。

以这一次的「手绘」系列为例,工程师们进行了非常细致的方案细分和探索,针对不同的机型,采取差异化的AI模型生成方案。

这实际上给AI算法和工程团队带来了更大的工作量。

但对于快手工程师而言,让每一个档次机型的方案都尽可能达到更好的效果,既是一种「使命感」,也是一种刻在企业文化里的「技术特性」。

近年来,快手已有不少AI产品成功落地、应用,其背后的技术路线,始终是坚持打造自研AI基础引擎、打造普惠AI算法,坚持让用户无差别享受高算力AI技术的Hard模式

比如自研YCNN深度学习推理引擎,是快手很多AI功能的强大加速器,是将AI模型迁移到不同场景、不同算力硬件的技术基础。

比如定制化压缩模型,使快手能在考量各种边界条件、有限的计算以及内存资源条件下,把模型的计算量降到最小,同时又不影响算法效果。

这在技术上的难度和积累,其实是不言而喻的。

所以,每一次新的爆款,每一次给老铁们带来的新乐趣,其实都是快手技术团队实力的又一次强有力证明。

而在技术可能加剧资源、地区和发展不平等的今天,快手运用自身强大技术,普惠每一个用户的技术民主化路线,也是其「接地气」的核心所在,是快手每一次新技术落地背后易于忽略却又令人感叹的地方。

另外,像今天这样的特效,可能还只是快手专门集结特效中心的开头动作,后续可能还会有更多「接地气」的AI特效玩法……

像是让二次元人物走进现实的动作捕捉这种:

所以如果你也有想到、期待一些新特效新玩法,不如评论区大胆表达起。

说不定就是下一个火爆全网的短视频新玩法呢~

程序员专栏 扫码关注填加客服 长按识别下方二维码进群

近期精彩内容推荐:  

 刚刚用鸿蒙跑了个“hello world”!

 裸辞1天 vs 裸辞10天 vs 裸辞一个月

 分布式id生成,我和面试官扯了一个半小时

 Python中浅拷贝与深拷贝的骚操作


在看点这里好文分享给更多人↓↓

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!