- 题目:Towards controllable image descriptions with semi-supervised VAE
Abstract
- 解决问题:为了生成更自然和风格化的图像描述,模型必须学习特定于风格的模式,并要求收集特定于风格的数据集,这非常耗时
- 提出模型:Semi-supervised Conditional Variational Auto-Encoder
- 效果:相比目前存在的模型,能够以更广泛的样式生成更准确的图像描述
Introduction
- 目前模型存在的问题:这些模型通常以最大似然目标进行训练,这会鼓励生成的描述在人类参考描述的训练集中使用最常见的n-gram,从而使模型生成只是粗略地描述了图像的内容的caption
- 为了提高描述的质量,一些研究人员建议添加物体的外部信息,例如属性,这可以进一步提高生成的描述的准确性,但仍然不足以生成各种具有特定风格的描述。
- 前人的工作:StyleNet
- 因为模型是确定性(determinstic)的,所以缺乏描述的可变性(variability)
- 无法以端到端的方式有效地训练以同时生成所有风格的描述
- 他们的模型在可用数据方面受到限制,因为它要求每个图像都具有中性和风格化的描述,而这受限于小的风格化描述数据集,并且无法利用更多可用的非风格化图像描述数据
- 本文解决的挑战:缺少丰富的特定风格的图像描述数据集和图像描述生成模型的整体可变性
- 图像描述生成模型的整体可变性
- 使用VAE:可以从描述中学习全局语句表示形式,它隐式地对语言的某些高级属性进行编码,并提供了在推理时从该空间进行采样的能力,从而提高了描述生成过程的总体随机性
- 样式可控性和数据可用性问题
- 提出带条件(输入图像为条件)的半监督VAE
- 图像描述生成模型的整体可变性
- Contribute:
- 风格可以通过风格全局变量和从潜在表示中进行采样来控制。 引入潜在表示变量可以解决生成的描述的不确定性,而风格全局变量则可以显式控制其样式
- 模型提供了生成具有任意风格的图像描述的能力,而不会降低准确性。 此外,模型显示了有效使用具有不同风格的数据以改善模型的整体性能的能力
- 以弱监督的方式(随机考虑一些没有样式标签的描述)训练生成模型,并通过添加更多没有指定样式的描述,这有助于通过提供更多的视觉和文本数据来获得更好的总体描述精度,并通过从潜在空间随机抽样来增加描述的总体可变性
Related work
TODO