image
BERT自问世以来,几乎刷新了各种NLP的任务榜,基于BERT的变种也层出不穷,在很多任务里都可以看到其身影。大浪淘沙,沉者为金,回想第一次看到BERT的论文时,确实不曾想其也能对工业界产生极大的影响。
本文尝试梳理今年BERT在多模态任务(主要涉及视觉和文本模态)上的一些工作,尝试比较各工作的主要思路以及做法上的区别,因此不会过多的涉及细节。总的来看,众多工作的主体模型大同小异,均使用Transformer,从表1(引用自VL-BERT论文)可以对各工作之间的相似和不同之处有个整体的认识。
image
可以看到,各方案之间的差异基本在于模态融合方式、预训练任务、以及下游任务微调,下文也将主要从这几个维度展开介绍和对比(排名不分先后)。
VideoBert
image
VideoBert主体采用单Transformer同时对文本token和视频片段进行模态表示和融合。与BERT区别在于把原来的句子对是否匹配(是否为下一句),换成了句子视频是否匹配任务。同时对于视频片段帧进行随机的MASK,预测对应的特征向量,文中叫visual words(通过预训练的视觉模型抽取得来,如S3D,然后聚类得到相应特征向量的id),对应于BERT的masked语言模型。
CBT
image
和VideoBert不同在于,视频输入和文本输入分成了两支。视频输入经过S3D网络得到视觉特征序列,文本输入经过BERT得到文本特征序列,两路序列再经过交叉的Transformer做Attention,进行多任务的预训练。
Unicoder-VL
image
网络结构和训练策略与VideoBert几乎一致,主要区别在于视觉测的输入由视频片段帧特征换成了单图的区域块(使用预训练的目标检测模型Faster R-CNN预测得到框、区域特征以及相应Label),对应的预测的任务由预测视频片段帧的特征向量,换成了直接预测对应Label。图文匹配任务和masked语言模型任务不变。
VisulBert
image
与Unicoder-VL整体思路和方法一致,除了预训练数据集以及微调任务的差异外,预训练目标上少了一个masked图像特征的预测任务。
VL-BERT
image
同样与Unicoder-VL相比,模型结构基本一致,不同在于在文本输入的每个token位置加入了图像的特征embedding(完整图像的特征),而在视觉侧直接接上了Fast-RCNN联合训练。
B2T2
image
同样也是单Transformer网络结构,不过在模态融合时候分成了晚期融合和早期融合。晚期融合比较简单,只要BERT结构的[CLS]输出端引入整个图像的特征,判断图文是否匹配,其他模块和masked语言模型没太大区别;早期融合和前面的工作相比,没有了单独的图像输入序列区域,而是在原来文本输入masked掉的词的位置输入了该词提到的图像区域块特征。
UNITER
image
基本思路和其他单Transformer的结构差异不大,总体感觉是用了更多的预训练数据集,下游任务微调更丰富,实验结果更全,效果更好。预训练任务包括masked语言模型、图文匹配和masked图像模型(包括图像region的feature的预测、KL散度的预测以及fastrcnn的label的预测,并做了组合效果的实验)。
VLP
image
VLP模型仍采用单Transformer结构,最大不同的是在预训练任务中引入了seq2seq的mask语言模型,天然的适合下游的生成任务做微调,如image caption。
LXMERT
image
对应CBT网络,LXMERT同样是两路输入,在视觉侧关注单图,和上文很多方案类似,图像经过目标检测模型得到区域块的特征序列,并经过Transformer进一步编码;文本侧通过BERT结构得到文本的特征序列,最后两者做交叉的Transformer做Attention,进行多任务的预训练。不同于其他工作,LXMERT的预训练任务可以说是巨多,包括masked图像特征的预测、图像label的预测(猫、狗等)、VQA、图文是否匹配以及masked语言模型。
ViLBert
image
image
和LXMERT一样也是两路输入,基本结构大同小异,主要区别在图像端的输入直接做Embed(特征提取后的特征序列)就和文本序列Transformer编码的输出进行交叉的attention,预训练任务也仅包括masked图像label的预测任务、图文匹配任务以及masked语言模型任务。
一些想法
总的感觉,好的基础工作会带动一波周边的探索,文章介绍的工作在发表时间上并没有太大差距,很多工作可以看作是同时进行。领域研究的持续活跃源自基础工作的不断进步,万丈高楼平地起。
具体工作上,个人感觉序列编码模块上Transformer的地位将长期难以撼动,未来可以发力的点一是模态之间更有效的融合方式,二则是在任务的创新上,如是否可以引入多模态内容之间的相关任务(如多图、多文的内容匹配),多模态内容检索等;
最后,做人也应该像BERT一样,自身不断变异进化,也让周遭环境越来越好。
参考文献
[1] Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy, and Cordelia Schmid. Videobert: A joint model for video and language representation learning. arXiv preprint arXiv:1904.01766, 2019b. [2] Chen Sun, Fabien Baradel, Kevin Murphy, and Cordelia Schmid. Contrastive bidirectional transformer for temporal representation learning. arXiv preprint arXiv:1906.05743, 2019a. [3] Jiasen Lu, Dhruv Batra, Devi Parikh, and Stefan Lee. Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. arXiv preprint arXiv:1908.02265, 2019. [4] Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. Bottom-up and top-down attention for image captioning and visual question answering. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 6077–6086, 2018. [5] Hao Tan and Mohit Bansal. Lxmert: Learning cross-modality encoder representations from transformers. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing, 2019. [6] Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, and Kai-Wei Chang. Visualbert: A simple and performant baseline for vision and language. arXiv preprint arXiv:1908.03557, 2019b. [7] Gen Li, Nan Duan, Yuejian Fang, Daxin Jiang, and Ming Zhou. Unicoder-vl: A universal encoder for vision and language by cross-modal pre-training, 2019a. [8] Su W, Zhu X, Cao Y, et al. Vl-bert: Pre-training of generic visual-linguistic representations[J]. arXiv preprint arXiv:1908.08530, 2019. [9] Chen Y C, Li L, Yu L, et al. UNITER: Learning UNiversal Image-TExt Representations[J]. arXiv preprint arXiv:1909.11740, 2019. [10] Zhou L, Palangi H, Zhang L, et al. Unified Vision-Language Pre-Training for Image Captioning and VQA[J]. arXiv preprint arXiv:1909.11059, 2019.
作者:zqh_zy
链接:https://www.jianshu.com/p/5f23e8d9224a
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
来源:oschina
链接:https://my.oschina.net/u/4354470/blog/4535029