Style VAE 阅读笔记
题目:Towards controllable image descriptions with semi-supervised VAE Abstract 解决问题:为了生成更自然和风格化的图像描述,模型必须学习特定于风格的模式,并要求收集特定于风格的数据集,这非常耗时 提出模型:Semi-supervised Conditional Variational Auto-Encoder 效果:相比目前存在的模型,能够以更广泛的样式生成更准确的图像描述 Introduction 目前模型存在的问题:这些模型通常以最大似然目标进行训练,这会鼓励生成的描述在人类参考描述的训练集中使用最常见的n-gram,从而使模型生成只是粗略地描述了图像的内容的caption 为了提高描述的质量,一些研究人员建议添加物体的外部信息,例如属性,这可以进一步提高生成的描述的准确性,但仍然不足以生成各种具有特定风格的描述。 前人的工作:StyleNet 因为模型是确定性(determinstic)的,所以缺乏描述的可变性(variability) 无法以端到端的方式有效地训练以同时生成所有风格的描述 他们的模型在可用数据方面受到限制,因为它要求每个图像都具有中性和风格化的描述,而这受限于小的风格化描述数据集,并且无法利用更多可用的非风格化图像描述数据 本文解决的挑战