卷积神经网络与Transformer结合,东南大学提出视频帧合成新架构
研究者表示,这是卷积神经网络与 Transformer 首度结合用于视频帧合成。 选自arXiv,作者:Zhouyong Liu 等,机器之心编译,机器之心编辑部。 深度卷积神经网络(CNN)是功能非常强大的模型,在一些困难的计算机视觉任务上性能也很卓越。尽管卷积神经网络只要有大量已标记的训练样本就能够执行,但是由于物体的变形与移动、场景照明变化以及视频序列中摄像头位置的变化,卷积神经网络在视频帧合成方面的表现并不出色。 近日,来自东南大学的研究者提出了一种新型的端到端架构,称为卷积 Transformer(ConvTransformer),用于视频帧序列学习和视频帧合成。ConvTransformer 的核心组件是文中所提出的注意力层,即学习视频序列序列依赖性的多头卷积自注意力。ConvTransformer 使用基于多头卷积自注意力层的编码器将输入序列映射到特征图序列,然后使用另一个包含多头卷积自注意层的深度网络从特征图序列中对目标合成帧进行解码。 在实验阶段的未来帧推断任务中,ConvTransformer 推断出的未来帧质量媲美当前的 SOTA 算法。研究者称这是 ConvTransformer 架构首次被提出,并应用于视频帧合成。 论文地址: https:// arxiv.org/abs/2011.1018 5 卷积 Transformer 架构 如图 2 所示