谷歌新作Imagen：用Transformer和扩散模型把"文字到图像生成"卷上天！

发布时间：2023-07-17 13:00

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—> CVer 微信技术交流群

转载自：机器之心 作者：Chitwan Saharia等

OpenAI：DALL・E 2 就是最好的。谷歌：看下我们 Imagen 生成的柴犬？

多模态学习近来受到重视，特别是文本 - 图像合成和图像 - 文本对比学习两个方向。一些模型因在创意图像生成、编辑方面的应用引起了公众的广泛关注，例如 OpenAI 的文本转图像模型 DALL・E、英伟达的 GauGAN。现在，来自谷歌的研究者也在这一方向做出了探索，提出了一种文本到图像的扩散模型 Imagen。

Imagen 结合了 Transformer 语言模型和高保真扩散模型的强大功能，在文本到图像的合成中提供前所未有的逼真度和语言理解能力。与仅使用图像 - 文本数据进行模型训练的先前工作相比，Imagen 的关键突破在于：谷歌的研究者发现在纯文本语料库上预训练的大型 LM 的文本嵌入对文本到图像的合成显著有效。Imagen 的文本到图像生成可谓天马行空，能生成多种奇幻却逼真的有趣图像。

比如正在户外享受骑行的柴犬：

泰迪熊的 400 米蝶泳首秀：

狗狗照镜子发现自己是只猫：

火龙果成精要打空手道了：

如果你觉得这些图片过于魔幻，那下面这张小鸟生气的图就非常真实了，隔着屏幕都能感觉到它的愤怒：

我们发现这些图片的分辨率都很高，像是人工精心 PS 过的。然而这些模型都出自 Imagen 这个 AI 模型之手。

Imagen 模型中包含一个 frozen T5-XXL 编码器，用于将输入文本映射到一系列嵌入和一个 64×64 的图像扩散模型中，并带有两个超分辨率扩散模型，用于生成 256×256 和 1024×1024 的图像。

其中，所有扩散模型都以文本嵌入序列为条件，并使用无分类器指导。借助新型采样技术，Imagen 允许使用较大的指导权重，而不会发生样本质量下降，使得生成的图像具有更高的保真度、图像与文本更加吻合。

虽然架构简单且易于训练，但 Imagen 产生了令人惊讶的强大结果。Imagen 在 COCO 上的零样本 FID-30K 分数为 7.27，性能显著优于之前的方法（GLIDE、DALL-E 2 等），并超越了当前的 SOTA 模型 Make-A-Scene（7.27 VS 7.55）。从人工评估看，Imagen 生成的样本在图像文本对齐方面与 COCO captions 的参考图像相当。

此外，研究者还提出了一种用于文本到图像评估的文本 prompt 结构化新套件 DrawBench。DrawBench 对文本到图像模型进行多维评估，文本 prompt 旨在探索模型的不同语义属性。这些 prompt 包括组合性、基数、空间关系、处理复杂文本 prompt 或带有稀有单词的 prompt 的能力，它们包括创造性 prompt，这些 prompt 将模型生成高度难以置信的场景的能力扩展到训练数据范围之外。

借助 DrawBench，研究者进行了广泛的人工评估，结果表明，Imagen 的性能明显优于其他方法。研究者进一步展示了相对于多模态嵌入（例如 CLIP），使用大型预训练语言模型作为 Imagen 的文本编码器具有明显的优势。

论文地址：https://gweb-research-imagen.appspot.com/paper.pdf

不过，和前段时间大火的 DALL・E 2 一样，我们很难指望谷歌将这个模型开源。对此，有网友建议说，可以去 GitHub 上找一些「野生」复现来玩一玩，比如已经放出一段时间的「DALL-E 2-Pytorch」项目：

项目地址：https://github.com/lucidrains/DALLE2-pytorch

Imagen 细节

Imagen 由一个文本编码器和一系列条件扩散模型组成，前者将文本映射为一系列嵌入，后者将这些嵌入映射为分辨率不断提高的图像，如图 Fig. A.4 所示。

预训练文本编码器

在构建 Imagen 的过程中，研究者探索了几个预训练文本编码器：BERT、T5 和 CLIP。为了简单起见，他们冻结了这些文本编码器的权重。冻结有几个优点，例如嵌入的离线计算，这使得文本 - 图像模型训练期间的计算或内存占用可以忽略。

在这项工作中，研究者发现，扩展文本编码器的大小可以提高文本到图像生成的质量。他们还发现，虽然 T5-XXL 和 CLIP 文本编码器在 MS-COCO 等简单基准上性能相似，但在 DrawBench 上的图像 - 文本对齐和图像保真度方面，人类评估员更喜欢 T5-XXL 编码器而不是 CLIP 文本编码器。

扩散模型和无分类器指导

扩散模型是一类生成模型，通过迭代去噪过程，将高斯噪声从已知的数据分布转换为样本。这类模型可以是有条件的，例如类标签、文本或低分辨率图像。

分类器指导是一种在采样期间使用来自预训练模型 p (c|z_t) 的梯度来提高样本质量，同时减少条件扩散模型多样性的技术。无分类器指导是一种替代技术，通过在训练期间随机丢弃 c（例如 10% 的概率），在有条件和无条件目标上联合训练单个扩散模型，从而避开上述预训练模型。

较大指导权重采样器

研究者证实了最近的文本指导扩散工作的结果，并发现增加无分类器指导权重可以改善图像 - 文本对齐，但也会损害图像保真度，产生高度饱和、不自然的图像。他们发现这是由于高指导权重引起的训练 - 测试不匹配所造成的。并且由于扩散模型在整个采样过程中迭代地应用于其自身的输出，采样过程就产生了不自然的图像。

为了解决这个问题，他们研究了静态阈值（static thresholding）和动态阈值（dynamic thresholding）。他们发现，动态阈值对于提升图像真实感和图像 - 文本对齐能力要有效得多，特别是在使用非常大的指导权重的时候。

稳健的扩散模型组

Imagen 利用一个 64 × 64 基本模型、两个文本条件超分辨率扩散模型将生成的 64 × 64 图像上采样为 256 × 256 图像，然后再上采样为 1024 × 1024 图像。具有噪声调节增强的扩散模型组在逐步生成高保真图像方面非常有效。

此外，研究者通过噪声水平调节使超分辨率模型意识到添加的噪声量，显著提高了样本质量，而且有助于提高超分辨率模型处理较低分辨率模型产生的 artifacts 的稳健性。Imagen 对两个超分辨率模型都使用了噪声调节增强。研究者发现这是生成高保真图像的关键。

给定调节低分辨率图像和增强水平（aug_level，例如高斯噪声或模糊的强度），研究者用增强（对应于 aug_level）破坏低分辨率图像，并在 aug_level 上调节扩散模型。在训练期间，aug_level 是随机选择的，而在推理期间，可以扫描它的不同值以找到最佳样本质量。在这项研究中，研究者使用高斯噪声作为一种增强形式，并应用类似于扩散模型中使用的正向过程的方差来保持高斯噪声增强。

神经网络架构

基本模型

谷歌新作Imagen：用Transformer和扩散模型把"文字到图像生成"卷上天！

相关推荐