论文笔记:Neural Baby Talk

发布时间:2022-11-21 20:30

Neural Baby Talk

1、提出问题

现代神经网络图像描述方法产生的自然语言描述虽然比较流畅,但是都是依靠语言模型去生成句子,往往不太依赖于图像。

2、提出创新点

  • 提出了 Neural Baby Talk —— 一种新的图像描述框架,在生成自然语言描述的同时,清楚的定位图像中的对象。

  • 我们的方法分为两个阶段,首先生成混合的模板,该模板包含单词和与图像区域插槽的混合,然后通过识别相应图像区域中的内容用单词填充插槽。

  • 我们提出了一个稳健的图像描述任务,以衡量图像描述算法的构成性,在测试时,模型遇到了包含已知物体但有新的组合的图像(例如,模型在训练时看到了沙发上的狗和桌子上的人,但在测试时遇到了桌子上的狗)。这种新的组合是证明图像落地的一种方式,而不是简单地利用训练数据的相关性。

    (为了验证模型能生成新对象的描述,作者重新划分了一个鲁棒的数据集分片。将COCO数据集的train和val重新组合,使得训练中共现的对象与测试时共现的对象不同,即模型将遇到包含已知对象但对象是新的组合方式的图像。)

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网,如有侵权请联系:561261067@qq.com

桂ICP备16001015号