MagicEraser: Erasing Any Objects via Semantics-Aware Control
Introduction
ECCV 2024.
提出了一个框架用于image erase,包含了content initialization和controllable generation两个模块,同时提出了两个即插即用的模块。
Methods
主要指出了当前方法的一些难点:
- Diffusion模型需要精确的prompt,可能会产生出新物体
- Gan-based对于复杂场景处理困难
Content Initialization
latent information生成过程
在这个初始化过程中,首先让图像通过预训练的erase模型一次(比如LaMa,CoordFill),然后经过vae。同时在这部分也对噪声的采样进行缩放,用于减缓产生新物体的概率。
Controllable Generation
Prompt Tuning
和PowerPainter实现差不多,引入了一个占位符微调,指导erase过程。
比如 A photo of sky
Semantics-Aware Attention Refocus
在mask外的物体有可能成为负面影响,影响到mask内内容的生成。比如说,我们在消除人物的时候,希望消除的部分与背景相吻合,而不希望再次生成人物。
于是提出了一个免训练的Semantics-Aware Attention Refocus模块,它利用通过分割获得的语义线索作为调节自我注意力层的指导。
注意力公式多了一个M,用于改变原始的attention map
W为权重,Mask为对应不同区域的值(0或1),文中解释如下图。代码未开源,不知道具体的实现方式,不过文中的方式直观理解上确实能够在erase过程中减缓其他物体的出现。
训练数据的生成
分割后可以在任意位置进行插入,还可以执行旋转,镜像等操作。
Experiments
MagicEraser: Erasing Any Objects via Semantics-Aware Control
https://dreamerland.cn/2024/10/30/图像编辑/MagicEraser/