Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning
这篇文件讲的是, 按照现有多模态的任务, 往往会出现噪音的问题, 噪声使得模型一直得不到最好结果, 而这篇文章提出一个去噪方法,自监督的去训练一个去噪模块来消除噪声, 实验结果显示, 用此方法, 能够直接提高 VQA, Text-To-Video Retrieval 等任务的表现
本文贡献
- 证明多模态噪声的消除任务 可以归结为 多模态密度估计任务
- 提出一个模块用于学习一个抗噪声能力强的表示 并且变成一个 max margin ranking loss function.
- 通过HowTo100M dataset 进行自监督训练如何去噪 , 然后用于5个任务, 结果可以发现进行提升
本文相关工作
-
Density Estimation: 密度估计
假设我们有一组来自未知密度函数的观察到的数据点,我们的目标是从观测到的数据估计他们的概率密度函数
-
参数或半参数方法
-
非参数方法
-
自监督学习
-
多模态表示学习
joint representation 联合表示
encoder-decoder framework
coordinated representation
模型方法
在多模态数据中,当两个或多个模态不具有相同的语义含义时,样本被认为是有噪音的, 这种噪音会影响实验结果。
问题定义:
一个样本Z 是由视频片段V 和 对应的文本(字幕)C, 以及两者是否匹配 P,
V 和 C 通过 Fv Fc 映射到同一特征空间,要求匹配的 V 和 C 在通过Fv, Fc 映射后相似
用多模态密度估计来进行噪声估计
定义两个样本的相似度
其中 s 是相似度计算函数 可以是 cos相似度计算
另外的符号表示的是均值和方差
然后是概率的表示, 概率的表示是用类似K-NN密度估计算法 来计算的
Zik 是 Zi 和 Zi 最近的第K个邻居的相似度
Soft Max Margin Ranking Loss
我们把上面的噪声估计组件进行集成, 集成到一个max margin ranking 损失函数中
P 是 正样本集合 Ni 是 对样本i 的负样本集合
理论分析
这一部分稍微有点难, 数学知识比较多, 后面再进行补充吧
实验
在HowTo100M 进行自监督训练, 然后放到下游任务里面
心得
从去噪声的角度,来进行实验, 可以提高实验效果, 也是一个思路吧, 他这篇是双模态的 任务,拓展到3模态应该会更加复杂
而且对于情感分析等来说好像收益不大, 因为 情感分析 本身就大部分是图文不相关的
来源:oschina
链接:https://my.oschina.net/u/4326389/blog/4898844