Pixel-Aware Stable Diffusion for Realistic Image Super-resolution and Personalized Stylization

使用扩散模型超分往往会出现下图的形式

为了更好的控制图像的原始结构,本文提出PASD模型。

摘要

Real-ISR(Realistic Image Super-Resolution,逼真图像超分辨率)旨在从低质量输入中再现感知上逼真的图像细节。常用的基于对抗训练的Real-ISR方法往往会引入不自然的视觉伪影,并且无法为自然场景图像生成逼真的纹理。最近发展的生成稳定扩散模型为Real-ISR提供了潜在的解决方案,因为它们具有预先学习的强大图像先验知识。然而,沿着这一方向的现有方法要么无法保持忠实的像素级图像结构,要么依赖额外的跳跃连接来复现细节,这需要在图像空间进行额外的训练,并限制了它们在潜在空间中扩展到其他相关任务(如图像风格化)的能力。

在这项工作中,我们提出了一种像素感知的稳定扩散(PASD)网络,旨在实现强大的Real-ISR和个性化的风格化。具体来说,引入了一个像素感知的交叉注意力模块,使扩散模型能够在像素级别感知图像的局部结构,同时使用一个降解去除模块来提取对降解不敏感的特征,以指导扩散过程,同时结合图像的高级信息。通过简单地用个性化模型替换基础扩散模型,我们的方法可以生成多样化的风格化图像,而无需收集成对的训练数据。PASD可以轻松地集成到现有的扩散模型中,如稳定扩散。在Real-ISR和个性化风格化上的实验证明了我们提出的方法的有效性。源代码和模型可以在 https://github.com/yangxy/PASD 找到。

方法

在这项工作中,我们研究了使用预训练的T2I模型(如SD)进行Real-ISR的问题,旨在重建具有照片逼真结构和纹理的图像。我们的想法是在扩散过程中引入像素感知的条件控制,以实现强大和感知上逼真的Real-ISR结果。为此,我们提出了一个像素感知的交叉注意力(PACA)模块,可以感知像素级别的信息,而不使用任何跳跃连接。我们还采用了一个降解去除模块,以减少未知图像降解的影响,减轻扩散模块处理真实世界低质量图像的负担。我们还证明了从输入图像中提取的高级分类/检测/描述信息可以进一步提升Real-ISR的性能。最后但并非最不重要的是,我们提出的像素感知稳定扩散(PASD)网络可以通过简单地将基础模型转换为个性化模型来执行个性化风格化任务。

Degradation Removal Module

本模块主要去除一些退化因素对图像超分的影响,通过缩放图像完成。缩放后的特征可以尽可能接近于相应比例的高质量图像,以便随后的扩散模块可以集中于恢复逼真的图像细节,减轻区分图像降级的负担。(缩放了,纹理更相似了)然后每一个尺度做监督,使用L1 loss。

Pixel-Aware Cross Attention (PACA)

很像交叉注意力,是维持绝大部分像素不变的重要模块。

ControlNet中的输入y可以保持原有图像的绝大部分信息(没有通过预训练模型的干扰)。

High-Level Information

高阶语义信息使用三个预训练的模型,然后丢入CLIP获得特征,与stable diffusion一样在Unet每一层做交叉注意力。

Personalized Stylization

基于PACA,可以获得像素级别的风格转化,通过微调其他大模型,完成风格转化

实验

消融实验

去掉PACA,可以看到PACA是维持像素相同的关键部分,同时颜色也发生了较大的变化

去掉degration,主要损失的是细节修复,但是整体的纹理还是很匹配的

风格转化


Pixel-Aware Stable Diffusion for Realistic Image Super-resolution and Personalized Stylization
https://dreamerland.cn/2024/02/25/深度学习/sr/
作者
Silva31
发布于
2024年2月25日
许可协议