本文解读的是 CVPR 2020 论文《 Attention-Guided Hierarchical Structure Aggregation for Image Matting 》, 作者来自大连理工大学、大连大学、郑州大学,其中第一作者有两位,分别是博士生乔羽和硕士生刘宇豪。
作者 | 刘宇豪
编辑 | 丛 末
论文地址:http://openaccess.thecvf.com/content_CVPR_2020/papers/Qiao_Attention-Guided_Hierarchical_Structure_Aggregation_for_Image_Matting_CVPR_2020_paper.pdf
项目地址:
https://xinyangdut.github.io/matting/Matting.html
https://wukaoliu.github.io/HAttMatting/
怎样实现既高质量又无需用户交互的图像抠图一直是学术界和工业界在努力追求的目标,近日,随着CVPR2020论文的正式公开,有这样一篇文章,在自动抠图领域又向前走了一步。下面,我们就来走进这篇文章。
图像抠图本身是一个病态的问题,公式如下所示:
给定一张RGB的彩色图 I,要求得一张表示像素不透明度的Alpha Matte,可见其约束度是远远不够的。通常情况,在求解该问题的时候是借助于Scribble或者Trimap的方式来增加一些辅助的约束信息,以基于Trimap的方法为例,
其白色表示确切的前景信息,黑色表示明确的背景信息。中间的灰色区域便是留给算法去求解的未知区域。尽管说这种方式对于求解可以大大提升精度,但确需要消耗很大的人力去标注一张高质量的Trimap。
课题组针对这一痛点,提出了注意力机制引导的层级结构融合的图像抠图方法。
1
如何实现?
论文中提出的图像抠图网络 HAttMatting 架构,以单幅RGB图像为输入,通过特征提取网络(FEM)提取多层特征。然后,将最深层的、语义丰富的特征输入到所提出的层级注意力机制(HAM)模块中,通过对高级语义进行自适应的特征筛选来实现Image Matting中 Class-Agnotisc 且 Matting-Adaptive 的特征,进而以此作为引导信息,对包含结构,纹理细节信息的低维特征执行空间注意力,以此达到对 Matting 边缘细节补全和优化的目的。
通过这种方式,HAttMatting 利用 FG 定位+boundary 优化,并辅之以对抗网络用于提升可视化效果,随之对网络的输出进行二倍上行采样,得到原始图像分辨率大小的Alpha Matte作为输出。
2
Distinctions-646 数据集
Image Matting 在计算机视觉领域的定义是一个回归任务,其所需要的GT之精度也非常高,而目前广泛应用于深度模型优化的自然图像数据集只有Adobe[1]公开的431张数据。
杨鑫教授称,为了缓解由于数据造成的欠鲁棒问题,课题组构建了Distinctions-646数据集,助力了抠图领域的进一步发展。该数据集是目前为止ImageMatting领域公开的、针对自然图像的最大规模高精度数据集,包含训练集596张,测试集50张。
3
结果如何?
论文作者采用了Image Matting领域通用的四个评价(SAD, MSE, Grad, Conn)指标对该方法分别在 Adobe 数据集[1]和自建的 Distinctions-646 上进行了定性评估。
在Adobe数据上对比的方法都是ImageMatting领域最新的模型,如Late fusion,Context-aware,Indexnet等。从结果上来看,该方法在无需Trimap的众多方法中达到SOTA,甚至在一些指标上超越了基于Trimap的一些方法。
在自身的Distinctions-646数据集上也对一些公开源码的Matting模型进行了重新训练和预测,其提出的HAttMatting模型也实现了SOTA的结果。
4
效率如何?
杨鑫教授解释道,该方法在Adobe[1]的一千张测试集上,可以达到平均0.2s一张图片的处理速度,这对于今后模型迁移至视频流任务和实时性要求较高的任务也是一个很好的铺垫。
5
结果可视化
从在Adobe[1]数据的可视化结果来看,本文的方法在无需Trimap做辅助的情况下也可以达到一个很好的效果。
除了标准测试集上的结果展示外,研究人员从网络上搜索的一些自然图片和这些图片预测的AlphaMatte结果如上图所示(敲黑板,小伙伴们要注意哦,本文是单张RGB直接预测Alpha Matte,不需要任何其他辅助信息的)。
后话
杨鑫教授介绍称,他们团队针对无需三分图辅助的 Image Matting,用了一年的时间进行课题调研、确定问题、制作数据集、设计模型、优化模型,研究成果最终被CVPR2020接收。
后续,研究团队还将围绕通用物体快速高精准的抠图来展开研究,以此来进一步扩展问题,并缩小合成数据和自然图像之间的差异,提高应用价值。
参考文献:
[1] Xu, Ning, et al. "Deep imagematting." Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition. 2017.
ACL 2020原定于2020年7月5日至10日在美国华盛顿西雅图举行,因新冠肺炎疫情改为线上会议。为促进学术交流,方便国内师生提早了解自然语言处理(NLP)前沿研究,AI 科技评论将推出「ACL 实验室系列论文解读」内容,同时欢迎更多实验室参与分享,敬请期待!
点击"阅读原文",直达“ACL 交流小组”了解更多会议信息。
来源:oschina
链接:https://my.oschina.net/u/4408225/blog/4325732