A Task is Worth One Word:Learning with Task Prompts for High-Quality Versatile Image Inpainting

Introduction

paper link
code
官网

PowerPaint模型实现在文本引导对象修复和上下文感知图像修复方面都表现出色。

Methods

本文提出的模型就是正常的LDM模型,微调的量在于三个后缀prompt,分别为PobjP_{obj}PctxtP_{ctxt}PshapeP_{shape}

在针对不同的编辑任务微调模型的时候,实际上就是在正常的prompt后加上上述不同后缀,最后实现不同任务的集成。

文中主要提出四个任务:

Context-aware Image Inpainting

该任务是根据图片mask周边环境填充,训练时对图像打上mask,然后将PctxtP_{ctxt}作为prompt进行训练

Text-guided Object Inpainting

该任务是根据输入的prompt生成新物体,训练时采用目标检测的检测框作为mask,然后将PobjP_{obj}作为prompt的后缀进行训练

Object Removal

消除物体,训练时将PctxtP_{ctxt}作为positive prompt,PobjP_{obj}作为negative prompt进行训练

Controllable Shape Guided Object Inpainting

引入新可学习promptPshapeP_{shape},但是这样会让新物体过拟合shape,而忽略了真实的物体shape。

最终解决方案如下:

  1. 先对原先细粒度的shape mask进行膨胀操作,然后计算出α\alpha
  2. prompt组合

在推理阶段,可以指定α\alpha,实现不同的拟合度

最终实现通过仅改变prompt实现不同任务的集成。


A Task is Worth One Word:Learning with Task Prompts for High-Quality Versatile Image Inpainting
https://dreamerland.cn/2024/10/23/图像编辑/PowerPaint/
作者
Silva31
发布于
2024年10月23日
许可协议