StyleGAN3重磅发布！皮肤、毛发不再粘屏幕，还能360度旋转！英伟达最新开源

发布时间：2022-09-07 15:00

转载自：AI科技评论

作者 | 琰琰、青暮

太狂野了！

你永远不知道StyleGAN的想象力可以有多强大。

刚刚英伟达最新推出的升级版StyleGAN 3，因为一组合成艺术作品刷爆Twitter，不少网友感叹：AI 制造了人类无法理解的恐怖！

而更令人震惊的是，除了强大的艺术创作能力，是它没有幻影的丝滑级过渡，以及对细节的高精度处理！

StyleGAN生成式对抗网络是一种最先进的高分辨率图像合成方法，从最初的GAN到StyleGAN2变体，其图像合成能力一直在突破人类的想象，而这次升级版StyleGAN3的对生成细节的把控更是令人惊叹！

AI科技评论发现，这项研究出自英伟达最新论文《Alias-Free Generative Adversarial Networks》，论文中表明，它从根本上解决了StyleGAN2 图像坐标与特征粘连的问题，实现了真正的图像平移、旋转等不变性，大幅提高了图像合成质量。

何谓等变性？简单理解就是生成的物体和图像的像素坐标没关系，仔细看下图：

你会发现StyleGAN2生成的动物毛发会粘在屏幕上，和动物的形态变化不一致。这就是StyleGAN变体一直无法解决的难题之一。果然魔鬼都在细节里！

StyleGAN3的魔力

我们知道，尽管生成式对抗网络具有层级卷积的性质，但由于过度依赖绝对像素坐标往往会出现图像细节“粘”在坐标上的现象，原因多出自”粗糙“的信号处理过程和神经网络混叠上。

在这项研究中，英伟达将网络中的所有信号解释为连续的，并对架构进行轻微调整保证不需要的信息不会泄漏到分层合成过程，最终得到了StyleGAN3，相比于StyleGAN2，它在保证了图像基本质量的同时，明显改善了其内部的表示方式——即使在亚像素尺度上也能实现绝对的平移和旋转。

项目主页：https://nvlabs.github.io/stylegan3/

虽然生成式对抗网络(generative adversarial networks, GAN)已被广泛用于各种应用，包括图像编辑、图像翻译以及视频生成，现有的控制生成的模型也达到了很高的水平，但总体而言，在合成过程的基础层面仍有极大的改善空间。

在现实世界中，图像在不同尺度上的细节往往是层次变化的。例如，头部的移动可能导致头发、鼻子，甚至皮肤上毛孔随之改变。

通常，典型GAN生成器的结构化处理过程是：粗糙、低分辨率的特征通过上采样层分层细化，再通过卷积局部混合，以及非线性引入新的细节。这种体系结构可能基本还原了图像的表面特征，但它并没有以一种“自然而然”的方式合成更逼真的图像，也就是说，粗糙特征确保了图像细节的存在，但没有控制它们的精确位置，细节被固定在了图像坐标上。

所形成的“纹理粘附”特征在隐藏表示的插值中清晰可见，打破了动态物体在空间中移动的连贯性。

这项研究的目标就是，创建更自然的转换层次的体系结构，让每个特征的精确亚像素位置都从底层粗特征中获得。我们再来看一组最终的效果图：

可以看到，在头部移动的情况下，左图 StyleGAN2 生成的头发、皱纹等粘在了屏幕坐标上，而右图StyleGAN3生成的所有细节都可以连贯地转换，效果丝滑。

在 MetFaces 、animal数据集中的效果同样如此，StyleGAN3中的场景与其余部分平滑地转换。

还可以注意到，在风景图生成中，StyleGAN3似乎已经学会模仿镜头运动（beach数据集）。

下图展示了几种“桥式（bridge）”配置中平移等变性或缺乏平移等变性的现象。

第一列图像是利用具有解析傅立叶输入特征的生成器生成的图像；第二列图像基于第一列图像，通过使用高质量的重采样滤波器进行反向平移来“不变换”像素。

第三列图像展示了前两列图像的不同。对于完美“等变”生成器（第5张图和第6张图），前两列图像是相同的，由模图像边界（由于光裁剪而未显示）和重采样产生数字噪声。可以看出，在60 dB范围内，其在视觉上堪称完美。

下图以类似于上图的方式说明了StyleGAN3的旋转等变性。

第一行中的StyleGAN3-T只为平移等变性而设计，正如预期的那样，它在旋转不变性上完全失败了。第二行展示的是StyleGAN3-T的一种变体，它使用p4对称G-CNN实现旋转等变。在360度的人脸旋转中，在90度的倍数处是精确的，但在中间角度处会发生扭曲。而StyleGAN3-R展示了高保真的旋转等变性（尽管视觉上还不算完美）。

下图演示了点态非线性(这里是ReLU)固有的混叠，以及StyleGAN3的解决方案。

左列：原始限带信号z，对其理想版本(上)进行采样(中)，然后根据采样(下)进行重构。由于采样率足够高，可以捕获信号，因此不会发生混叠。

中间列：在连续域(顶部)应用点向非线性会产生一个非光滑函数，这是由于在零交叉点处的剪切。采样这个信号(中间)并从样本(底部)重建函数会产生一个混叠的结果，因为由裁剪产生的高频不能用样本网格表示。

右列：在连续域中对ReLUed函数应用低通滤波器(上)，再次得到平滑函数：对它进行采样(中间)可以实现真实的重构(底部)。

下图比较了StyleGAN3和StyleGAN2(第一行)的内部激活模式。StyleGAN3-T(中间，平移等变)和StyleGAN3-R(底部，旋转等变)两个等变网络构建图像的方式，与StyleGAN2的最终图像中遵循特征的多尺度相位信号的方式完全不同。

基于StyleGAN3的构造，这些信号必须控制图像特征的外观和相对位置。研究人员假设局部定向振荡形成一个基底，从而使分层定位成为可能。StyleGAN3的构造似乎使网络很自然地从低频输入的傅里叶特征构造图像。

下图解释了切片可视化对比，表明在人脸平移时，对于某个固定的坐标切片，StyleGAN3可以随人脸移动变化纹理，而StyleGAN2则倾向于生成固定的纹理。

StyleGAN3的技术创新

以上示例证明，StyleGAN 的层次结构通过图像边界、像素噪声输入和位置编码以及混叠，可以利用中间层实现位置精确。

在GAN的相关文献中，混叠这一概念很少被提及，作者在这项研究中，提供了两个混叠来源：1）由非理想上采样滤波器（如卷积、双线性卷积或跨步卷积）产生的像素网格后模糊图像。2）非线性的逐点应用，如ReLU或swish。

他们发现，混叠网络具有放大并在多个尺度上组合图像像素的能力，这对于弱化固定在屏幕坐标中的纹理图案至关重要。并且实验证明，该网络还适用于深度学习中所有常用过滤器，甚至图像处理中使用的高质量过滤器。

我们知道，成功消除所有位置参考来源意味着无论像素坐标如何，细节都可以被很好地生成，它相当于在所有层中对亚像素平移(和旋转)实施连续的等方差。

事实证明，当前的上采样滤波器在抑制混叠方面根本不够积极，而且需要具有超过100dB衰减的高质量滤波器。这项研究提出了一种解决点态非线性引起的混叠的原理，考虑了它们在连续域的影响，并对结果进行适当的低通滤波。

此外，实验证明：一个基于1×1卷积的模型能够产生强旋转的等变生成器。一旦适当地抑制了混叠以迫使模型实现更自然的层次细化，它的操作模式就会发现显著变化：坐标系统等内部表示，允许细节准确地附加到底层表面。这将显著改进用于生成视频和动画的模型。

效果如此完美，真的不是cherry-picking？

英伟达也怕你不服气，火速开源了项目，还提供了colab供小白尝试。

参考资料

项目主页：https://nvlabs.github.io/stylegan3/

论文地址：https://arxiv.org/pdf/2106.12423.pdf

Github地址：https://github.com/NVlabs/stylegan3

colab：https://colab.research.google.com/drive/1BXNHZBai-pXtP-ncliouXo_kUiG1Pq7M?usp=sharing

https://news.ycombinator.com/item?id=28833213

本文仅做学术分享，如有侵权，请联系删文。

重磅！计算机视觉工坊-学习交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

StyleGAN3重磅发布！皮肤、毛发不再粘屏幕，还能360度旋转！英伟达最新开源

相关推荐