MagicEraser: Erasing Any Objects via Semantics-Aware Control

Introduction

ECCV 2024.

提出了一个框架用于image erase,包含了content initialization和controllable generation两个模块,同时提出了两个即插即用的模块。

Methods

主要指出了当前方法的一些难点:

  • Diffusion模型需要精确的prompt,可能会产生出新物体
  • Gan-based对于复杂场景处理困难

Content Initialization

latent information生成过程

在这个初始化过程中,首先让图像通过预训练的erase模型一次(比如LaMa,CoordFill),然后经过vae。同时在这部分也对噪声的采样进行缩放,用于减缓产生新物体的概率。

Controllable Generation

Prompt Tuning

和PowerPainter实现差不多,引入了一个占位符微调,指导erase过程。

比如 A photo of RR_* sky

Semantics-Aware Attention Refocus

在mask外的物体有可能成为负面影响,影响到mask内内容的生成。比如说,我们在消除人物的时候,希望消除的部分与背景相吻合,而不希望再次生成人物。

于是提出了一个免训练的Semantics-Aware Attention Refocus模块,它利用通过分割获得的语义线索作为调节自我注意力层的指导。

注意力公式多了一个M,用于改变原始的attention map

W为权重,Mask为对应不同区域的值(0或1),文中解释如下图。代码未开源,不知道具体的实现方式,不过文中的方式直观理解上确实能够在erase过程中减缓其他物体的出现。

训练数据的生成

分割后可以在任意位置进行插入,还可以执行旋转,镜像等操作。

Experiments


MagicEraser: Erasing Any Objects via Semantics-Aware Control
https://dreamerland.cn/2024/10/30/图像编辑/MagicEraser/
作者
Silva31
发布于
2024年10月30日
许可协议