A Task is Worth One Word：Learning with Task Prompts for High-Quality Versatile Image Inpainting

PowerPaint模型实现在文本引导对象修复和上下文感知图像修复方面都表现出色。

本文提出的模型就是正常的LDM模型，微调的量在于三个后缀prompt，分别为 $P_{obj}$ 、 $P_{ctxt}$ 、 $P_{shape}$ 。

在针对不同的编辑任务微调模型的时候，实际上就是在正常的prompt后加上上述不同后缀，最后实现不同任务的集成。

文中主要提出四个任务：

该任务是根据图片mask周边环境填充，训练时对图像打上mask，然后将 $P_{ctxt}$ 作为prompt进行训练

该任务是根据输入的prompt生成新物体，训练时采用目标检测的检测框作为mask，然后将 $P_{obj}$ 作为prompt的后缀进行训练

消除物体，训练时将 $P_{ctxt}$ 作为positive prompt， $P_{obj}$ 作为negative prompt进行训练

引入新可学习prompt $P_{shape}$ ，但是这样会让新物体过拟合shape，而忽略了真实的物体shape。

最终解决方案如下：

在推理阶段，可以指定 $\alpha$ ，实现不同的拟合度

最终实现通过仅改变prompt实现不同任务的集成。

#深度学习 #图像编辑

A Task is Worth One Word：Learning with Task Prompts for High-Quality Versatile Image Inpainting

https://dreamerland.cn/2024/10/23/图像编辑/PowerPaint/

作者

Silva31

发布于

2024年10月23日

许可协议