要解决什么问题?
- 解决的问题: 如何生成具有真实感的超分图像;
- 具体而言:
- 目前许多相关方法在PSNR、SSIM等指标上都取得很好的结果,但是大多数方法可能会产生模糊的视觉效果;
- 为了提高恢复图像的感知质量,一些方法使用对抗学习和感知损失,但是由一对一的MSE / MAE损失引起的过度平滑问题,仍未得到最佳解决。
- 并且,对抗训练会产生视觉伪影;
- 提出了用于高质量图像超分辨率的 Beby-GAN ;
- 网络以不同的方式对待平滑和纹理良好的区域,并且只对后者进行对抗训练。这种分离鼓励网络更多地关注细节丰富的区域,同时避免在平坦区域(例如天空和建筑物)上生成不必要的纹理;
- 提出的one-to-many best-buddy loss(一对多最佳伙伴损失)的好处是产生更丰富和更合理的纹理;
框架的主体建立在生成对抗网络 (GAN) 之上,其中生成器用于重建高分辨率图像,而判别器经过训练以区分恢复的结果和真实的自然图像;
采用预训练的 RRDB 模型作为我们的生成器,因为它具有很强的学习能力;
RRDB出自ESRGAN:
框架的主体建立在生成对抗网络 (GAN) [9] 之上,其中生成器用于重建高分辨率图像,而判别器经过训练以区分恢复的结果和真实的自然图像;
采用预训练的 RRDB 模型作为我们的生成器,因为它具有很强的学习能力;
为什么要提出Best-Buddy Loss:
- 原因一:在超分辨率任务中,单个 LR Patch 本质上与多个自然 HR 解决方案相关联:
- 原因二:现有方法通常侧重于在训练阶段使用 MSE/MAE 损失来学习不可变的单 LR-单 HR 映射,这忽略了 SISR 的固有不确定性,所以,重建的 HR 图像可能缺少几个高频结构;
- 这里的高频结构可以理解成图像的细节信息;
- 所以提出Best-Buddy Loss:
- one-to-many best-buddy loss(一对多最佳伙伴损失) ,以实现可靠且更灵活的监督;
- 关键思想是:允许在不同迭代中由不同目标监督估计的 HR 补丁;
Candidate Patch如何求?
- 首先对具有不同比例因子的ground-truth(GT)HR 图像IHR进行下采样:
- 其中 S(I, r) : 是一个双三次下采样算子,得到一个 3 级图像金字塔(包括原始 GT HR 图像);
- 然后,将估计的 HR 图像和相应的 GT 图像金字塔展开成块,GT 部分形成了该图像的监督候选数据库 G ;
Best-buddy Patch如何求?
- Estimated HR patch,在当前迭代中寻找其对应的监督补丁 g∗i(即最佳伙伴)以满足两个约束:
- g∗i (即最佳伙伴)需要接近 HR 空间中预定义的真实值 gi(等式中的第一项)。 依靠自然图像中普遍存在的多尺度自相似性,很有可能找到一个接近真实值 gi 的 HR 补丁。
- 为了使优化更容易,g∗i (即最佳伙伴)应该接近估计值 (等式中的第二项)。被认为是一个合理的预测,因为的生成器已经很好地初始化了。
Best-Buddy Loss
- 该Patch的Best-Buddy Loss为:
- 当 β 远小于 α 时, Best-Buddy Loss退化为MAE Loss;
反投影约束
- 对生成的估计图片使用反投影约束:
- 缩小后的超分辨率图像必须与较低分辨率下的预期保真度相匹配;引入了 HR-to-LR 操作(本文中为双三次下采样),以确保估计的 HR 图像在 LR 空间上的投影仍然与原始 LR 一致;
有(w/)和没有(w/o)反投影(BP)损失的比较。可视化估计结果和地面实况之间的 L2 误差热图。
注意到这种反投影损失在保持内容和颜色一致性方面起着至关重要的作用。
区域感知对抗学习
以往的基于 GAN 的方法,尤其是在平坦区域,有时会产生不良纹理;
因此根据局部像素统计来区分纹理丰富的区域和平滑区域,并且只将纹理内容提供给鉴别器,因为平滑区域的无图像不用GAN也能很好的恢复;
策略是首先将真实 HR 图像(即)展开为大小为 k^2 的块,然后计算每个块的标准差(std)。 得到一个二进制掩码为:
其中 δ 是预定义的阈值, (i, j) 是补丁位置。
高度纹理区域标记为 1,平坦区域标记为 0。
然后将估计结果和 groundtruth IHR 与相同的掩码 M 相乘,由以下鉴别器处理;
尽管可以用计算量更大或更复杂的策略,但是作者通过消融实验证明了区域感知对抗学习的有效性;
在没有区域感知学习的情况下,结果中的字符和栏杆附近存在令人不快的伪影(参见“w/o RA”)。在区分了纹理丰富的区域和平坦区域之后,这个问题得到了缓解,如第 3 列所示(参见“我们的”);
这种分离允许网络知道“在哪里”进行对抗性训练,并产生两个主要优势。一方面,由于网络只需要关注高频细节区域,因此训练更容易。另一方面,平滑部分不经过 GAN,网络产生的不自然纹理较少;
该模块指导模型为纹理区域生成逼真的精细细节;
损失函数设计:
整体损失函数设计:
感知损失:
对抗损失:
实验与效果
BSDS100的X4效果,感觉似乎?
公式和图片(除了最后两个图)其余均来自于原论文