Uni-paint:A Unified Framework for Multimodal Image Inpainting with Pretrained Diffusion Model

Introduction

MM23

提出一个可以通过三种不同条件指导的inpaint模型,即可以通过text,stroke,exemplar的组合进行inpainting。

Methods

文章先从Unconditional inpainting开始训练,这个步骤的目的是为了让模型可以先有还原未被mask区域的能力。

训练过程就是将input改成mask后的图像,gt也为mask后的图像,并且只计算未被mask区域的损失。

对于Exemplar-driven inpainting,需要输入参照图像,同时根据参照图像找到一个最相近的token。这里寻找token的方法就是在一个包含所有token集合同时encode token和参照图像,寻找最近的embedding。

在Stroke-driven inpainting中,需要对画笔画出的形状,颜色映射一致。处理方法很直接,直接在指定的去噪步数与简笔画融合。

多模态混合时,在去噪前期进行无条件,然后加入简笔画融合,然后后续去噪加入text和exemplar进行去噪

下图展示了插入的时间点对生成的影响

本文注意到先前的方式在inpaint的过程中可能会出现超出mask区域的情况,因此提出了masked attention。主要思想就是在做cross-attention的时候,文本只能与mask区域做;在图像做self-attention的时候,mask区域只能和mask区域做。

对于cross-attention

对于self-attention

消融实验:

Experiments

训练数据集:EditBench、自建数据集


Uni-paint:A Unified Framework for Multimodal Image Inpainting with Pretrained Diffusion Model
https://dreamerland.cn/2024/10/31/图像编辑/Unipaint/
作者
Silva31
发布于
2024年10月31日
许可协议