A Task is Worth One Word:Learning with Task Prompts for High-Quality Versatile Image Inpainting
Introduction
PowerPaint模型实现在文本引导对象修复和上下文感知图像修复方面都表现出色。
Methods
本文提出的模型就是正常的LDM模型,微调的量在于三个后缀prompt,分别为、 、。
在针对不同的编辑任务微调模型的时候,实际上就是在正常的prompt后加上上述不同后缀,最后实现不同任务的集成。
文中主要提出四个任务:
Context-aware Image Inpainting
该任务是根据图片mask周边环境填充,训练时对图像打上mask,然后将作为prompt进行训练
Text-guided Object Inpainting
该任务是根据输入的prompt生成新物体,训练时采用目标检测的检测框作为mask,然后将作为prompt的后缀进行训练
Object Removal
消除物体,训练时将作为positive prompt,作为negative prompt进行训练
Controllable Shape Guided Object Inpainting
引入新可学习prompt,但是这样会让新物体过拟合shape,而忽略了真实的物体shape。
最终解决方案如下:
- 先对原先细粒度的shape mask进行膨胀操作,然后计算出
- prompt组合
在推理阶段,可以指定,实现不同的拟合度
最终实现通过仅改变prompt实现不同任务的集成。
A Task is Worth One Word:Learning with Task Prompts for High-Quality Versatile Image Inpainting
https://dreamerland.cn/2024/10/23/图像编辑/PowerPaint/