CATDiffusion

提出了一个prompt生成模型用于指导预训练大模型进行inpainting

给定图像和掩码，我们首先使用冻结的 CLIP 图像编码器对掩码图像的全局和局部裁剪进行编码。然后，训练 m-I2T 扩散先验网络以生成潜在表示。我们进一步训练嵌入分类器或文本解码器，将嵌入向量转换为文本提示。生成的嵌入或文本都可以应用于文本引导的图像修复模型。

CatDiff用于对mask区域进行分类。

#深度学习 #图像编辑

CATDiffusion

https://dreamerland.cn/2024/10/24/图像编辑/CATDiffusion/

作者

Silva31

发布于

2024年10月24日

许可协议