多模态阅读笔记 Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

|▌冷眼眸甩不掉的悲伤 提交于 2021-01-14 17:18:55

Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

这篇文件讲的是, 按照现有多模态的任务, 往往会出现噪音的问题噪声使得模型一直得不到最好结果, 而这篇文章提出一个去噪方法,自监督的去训练一个去噪模块来消除噪声, 实验结果显示, 用此方法, 能够直接提高 VQA, Text-To-Video Retrieval 等任务的表现

本文贡献

  • 证明多模态噪声的消除任务 可以归结为 多模态密度估计任务
  • 提出一个模块用于学习一个抗噪声能力强的表示 并且变成一个 max margin ranking loss function.
  • 通过HowTo100M dataset 进行自监督训练如何去噪 , 然后用于5个任务, 结果可以发现进行提升

本文相关工作

  1. Density Estimation: 密度估计

    假设我们有一组来自未知密度函数的观察到的数据点,我们的目标是从观测到的数据估计他们的概率密度函数

  1. 自监督学习

    一文读懂自监督学习_zandaoguang的博客-CSDN博客_自监督学习

  2. 多模态表示学习

    joint representation 联合表示

    encoder-decoder framework

    coordinated representation

模型方法

在多模态数据中,当两个或多个模态不具有相同的语义含义时,样本被认为是有噪音的, 这种噪音会影响实验结果。

问题定义:

一个样本Z 是由视频片段V 和 对应的文本(字幕)C, 以及两者是否匹配 P

V 和 C 通过 Fv Fc 映射到同一特征空间,要求匹配的 V 和 C 在通过Fv, Fc 映射后相似

用多模态密度估计来进行噪声估计

定义两个样本的相似度

在这里插入图片描述

其中 s 是相似度计算函数 可以是 cos相似度计算
在这里插入图片描述

另外的符号表示的是均值和方差

然后是概率的表示, 概率的表示是用类似K-NN密度估计算法 来计算的

在这里插入图片描述

Zik 是 Zi 和 Zi 最近的第K个邻居的相似度

Soft Max Margin Ranking Loss

我们把上面的噪声估计组件进行集成, 集成到一个max margin ranking 损失函数中

在这里插入图片描述

P 是 正样本集合 Ni 是 对样本i 的负样本集合

理论分析

这一部分稍微有点难, 数学知识比较多, 后面再进行补充吧

实验

在HowTo100M 进行自监督训练, 然后放到下游任务里面

在这里插入图片描述

心得

从去噪声的角度,来进行实验, 可以提高实验效果, 也是一个思路吧, 他这篇是双模态的 任务,拓展到3模态应该会更加复杂

而且对于情感分析等来说好像收益不大, 因为 情感分析 本身就大部分是图文不相关的

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!