论文笔记：Neural Baby Talk

发布时间：2022-11-21 20:30

Neural Baby Talk

1、提出问题

现代神经网络图像描述方法产生的自然语言描述虽然比较流畅，但是都是依靠语言模型去生成句子，往往不太依赖于图像。

2、提出创新点

提出了 Neural Baby Talk —— 一种新的图像描述框架，在生成自然语言描述的同时，清楚的定位图像中的对象。
我们的方法分为两个阶段，首先生成混合的模板，该模板包含单词和与图像区域插槽的混合，然后通过识别相应图像区域中的内容用单词填充插槽。
我们提出了一个稳健的图像描述任务，以衡量图像描述算法的构成性，在测试时，模型遇到了包含已知物体但有新的组合的图像（例如，模型在训练时看到了沙发上的狗和桌子上的人，但在测试时遇到了桌子上的狗）。这种新的组合是证明图像落地的一种方式，而不是简单地利用训练数据的相关性。

（为了验证模型能生成新对象的描述，作者重新划分了一个鲁棒的数据集分片。将COCO数据集的train和val重新组合，使得训练中共现的对象与测试时共现的对象不同，即模型将遇到包含已知对象但对象是新的组合方式的图像。）

相关推荐

墨天轮访谈 | 百度云邱学达：GaiaDB如何解决云上场景的业务需求？

我的论文串讲「一」

Spark_sql&Spark_streaming从入门到精通

Mysql Information Schema 学习(一)--通用表

## RuntimeError: one of the variables needed for gradient computation has been modified by an inplac

前端实现分页效果

看完一遍就会的mtcnn人脸检测原理

最强人工智能 OpenAI 极简教程

性能测试能力提升最终篇-全链路压测

在matlab环境中实现图像的傅里叶变换,matlab图像傅里叶变换处理实验

Word文档 | 之前的文字被新文字覆盖的解决办法

TCP/IP网络编程（1）

最新完成的一个全栈微信小程序商城，包含后台和小程序端，服务器端

5. 数据访问 - EntityFramework集成

从苹果店员到机器学习工程师，高中学历澳洲小哥的自学路

10.Opencv的重要结构体Mat—深拷贝与浅拷贝

深蓝学院的三维点云课程：第一章

pandoc--Latex转Docx

我能想到最浪漫的事，就是和你一起敲代码？？

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网，如有侵权请联系：561261067@qq.com

桂ICP备16001015号