逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型Imagen

发布时间：2024-02-14 11:30

来源：AI科技评论

作者：李梅、王玥

编辑：陈彩娴

文本生成图像模型界又出新手笔！

这次的主角是Google Brain推出的 Imagen，再一次突破人类想象力，将文本生成图像的逼真度和语言理解提高到了前所未有的新高度！比前段时间OpeAI家的DALL·E 2更强！

话不多说，我们来欣赏这位AI画师的杰作～

A brain riding a rocketship heading towards the moon.（一颗大脑乘着火箭飞向月球。）

A dragon fruit wearing karate belt in the snow.（在雪地里戴着空手道腰带的火龙果）

A marble statue of a Koala DJ in front of a marble statue of a turntable. The Koala has wearing large marble headphones.（一只带着巨大耳机的考拉DJ的大理石雕像站在一个大理石转盘前。）

An art gallery displaying Monet paintings. The art gallery is flooded. Robots are going around the art gallery using paddle boards.（陈列莫奈画作的美术馆被水淹没。机器人正在使用桨板在美术馆里划行。）

A giant cobra snake on a farm.The snake is made out of corn（农场里有一条巨大的玉米构成的眼镜蛇。）

Teddy bears swimming at the Olympics 400m Butterfly event.（泰迪熊在奥运会400米蝶泳项目中游泳。）

以及更多......

给出同样的文本提示，Imagen还可以生成不同类别的图像。比如下面这些图中，各组图片在物品的颜色、空间位置、材质等范畴上都不太相同。

Imagen的工作原理

论文地址：

https://gweb-research-imagen.appspot.com/paper.pdf

Imagen的可视化流程

Imagen基于大型transformer语言模型在理解文本方面的能力和扩散模型在高保真图像生成方面的能力。

在用户输入文本要求后，如“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”，Imagen先是使用一个大的冻结（frozen）T5-XXL 编码器将这段输入文本编码为嵌入。然后条件扩散模型将文本嵌入映射到64×64的图像中。

Imagen进一步利用文本条件超分辨率扩散模型对64×64的图像进行升采样为256×256，再从256×256升到1024×1024。结果表明，带噪声调节增强的级联扩散模型在逐步生成高保真图像方面效果很好。

图注：输入“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”后Imagen的动作

图注：64 × 64生成图像的超分辨率变化。对于生成的64 × 64图像，将两种超分辨率模型分别置于不同的提示下，产生不同的上采样变化

大型预训练语言模型×级联扩散模型

Imagen使用在纯文本语料中进行预训练的通用大型语言模型(例如T5)，它能够非常有效地将文本合成图像：在Imagen中增加语言模型的大小，而不是增加图像扩散模型的大小，可以大大地提高样本保真度和图像-文本对齐。

Imagen的研究突出体现在：

大型预训练冻结文本编码器对于文本到图像的任务来说非常有效；
缩放预训练的文本编码器大小比缩放扩散模型大小更重要；
引入一种新的阈值扩散采样器，这种采样器可以使用非常大的无分类器指导权重；
引入一种新的高效U-Net架构，这种架构具有更高的计算效率、更高的内存效率和更快的收敛速度；
Imagen在COCO数据集上获得了最先进的FID分数7.27，而没有对COCO进行任何训练，人类评分者发现，Imagen样本在图像-文本对齐方面与COCO数据本身不相上下。

逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型Imagen

相关推荐