发布时间:2022-11-21 20:30
现代神经网络图像描述方法产生的自然语言描述虽然比较流畅,但是都是依靠语言模型去生成句子,往往不太依赖于图像。
提出了 Neural Baby Talk —— 一种新的图像描述框架,在生成自然语言描述的同时,清楚的定位图像中的对象。
我们的方法分为两个阶段,首先生成混合的模板,该模板包含单词和与图像区域插槽的混合,然后通过识别相应图像区域中的内容用单词填充插槽。
我们提出了一个稳健的图像描述任务,以衡量图像描述算法的构成性,在测试时,模型遇到了包含已知物体但有新的组合的图像(例如,模型在训练时看到了沙发上的狗和桌子上的人,但在测试时遇到了桌子上的狗)。这种新的组合是证明图像落地的一种方式,而不是简单地利用训练数据的相关性。
(为了验证模型能生成新对象的描述,作者重新划分了一个鲁棒的数据集分片。将COCO数据集的train和val重新组合,使得训练中共现的对象与测试时共现的对象不同,即模型将遇到包含已知对象但对象是新的组合方式的图像。)