发布时间:2022-08-19 13:06
本文约2100字,建议阅读5分钟
将文本生成图像的逼真度和语言理解提高到了前所未有的新高度!
文本生成图像模型界又出新手笔!
这次的主角是Google Brain推出的 Imagen,再一次突破人类想象力,将文本生成图像的逼真度和语言理解提高到了前所未有的新高度!比前段时间OpeAI家的DALL·E 2更强!
话不多说,我们来欣赏这位AI画师的杰作~
A brain riding a rocketship heading towards the moon.(一颗大脑乘着火箭飞向月球。)
A dragon fruit wearing karate belt in the snow.(在雪地里戴着空手道腰带的火龙果)
A marble statue of a Koala DJ in front of a marble statue of a turntable. The Koala has wearing large marble headphones.(一只带着巨大耳机的考拉DJ的大理石雕像站在一个大理石转盘前。)
An art gallery displaying Monet paintings. The art gallery is flooded. Robots are going around the art gallery using paddle boards.(陈列莫奈画作的美术馆被水淹没。机器人正在使用桨板在美术馆里划行。)
A giant cobra snake on a farm.The snake is made out of corn(农场里有一条巨大的玉米构成的眼镜蛇。)
Teddy bears swimming at the Olympics 400m Butterfly event.(泰迪熊在奥运会400米蝶泳项目中游泳。)
以及更多......
给出同样的文本提示,Imagen还可以生成不同类别的图像。比如下面这些图中,各组图片在物品的颜色、空间位置、材质等范畴上都不太相同。
1、Imagen的工作原理
论文地址:https://gweb-research-imagen.appspot.com/paper.pdf
Imagen基于大型transformer语言模型在理解文本方面的能力和扩散模型在高保真图像生成方面的能力。
在用户输入文本要求后,如“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”,Imagen先是使用一个大的冻结(frozen)T5-XXL 编码器将这段输入文本编码为嵌入。然后条件扩散模型将文本嵌入映射到64×64的图像中。
Imagen进一步利用文本条件超分辨率扩散模型对64×64的图像进行升采样为256×256,再从256×256升到1024×1024。结果表明,带噪声调节增强的级联扩散模型在逐步生成高保真图像方面效果很好。
图注:输入“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”后Imagen的动作
图注:64 × 64生成图像的超分辨率变化。对于生成的64 × 64图像,将两种超分辨率模型分别置于不同的提示下,产生不同的上采样变化
Imagen使用在纯文本语料中进行预训练的通用大型语言模型(例如T5),它能够非常有效地将文本合成图像:在Imagen中增加语言模型的大小,而不是增加图像扩散模型的大小,可以大大地提高样本保真度和图像-文本对齐。
Imagen的研究突出体现在:
大型预训练冻结文本编码器对于文本到图像的任务来说非常有效;
缩放预训练的文本编码器大小比缩放扩散模型大小更重要;
引入一种新的阈值扩散采样器,这种采样器可以使用非常大的无分类器指导权重;
引入一种新的高效U-Net架构,这种架构具有更高的计算效率、更高的内存效率和更快的收敛速度;
Imagen在COCO数据集上获得了最先进的FID分数7.27,而没有对COCO进行任何训练,人类评分者发现,Imagen样本在图像-文本对齐方面与COCO数据本身不相上下。
外文翻译 | 你以为你会用Math.random() ? 不,你不会……
4.2 APP_UI ----Appium工具介绍以及元素定位
中国天眼发现地外文明可疑信号,马斯克称星舰7月开始轨道试飞,网信办:APP不得强制要求用户同意处理个人信息,今日更多大新闻在此...
反向代理神器 Nginx Proxy Manager 快速部署(Docker-compose)
java字符串的替换replace、replaceAll、replaceFirst的区别说明
构造简单模型计算机,计算机原理实验四 CPU与简单模型机设计实验 操作步骤
在 SQL Server 中使用 Try Catch 处理异常
chrome浏览器91版本SameSite by default cookies被移除后的解决方案,Chrome中跨域POST请求无法携带Cookie的解决方案