AVID:Any-Length Video Inpainting with Diffusion Model
AVID: Any-Length Video Inpainting with Diffusion Model
Introduction
CVPR 2024
实现了视频Erase,inpainting,outpainting的内容
Method
Text-guided Video Inpainting 给定一段视频、第一帧的mask、对应的prompt。首先使用XMem模型对所有视频帧进行mask的生成。然后插入AnimateDiff中设计的motion modules,进行类似的训练。
Structure Guidance in Video Inpainting 有时候需要保留足够的纹理细节,这时候需要引入额外的模块知道细节保留。仿照了controlnet的设计思路。
Zero-shot Inference for Long Videos 由于motion module的特性,无法生成长时间的视频,因此提出一种middle-frame attention guidance mechanism,保持id的不变性。具体包含两个小操作:
-
Temporal MultiDiffusion: 将长视频进行clip切分,对于某一指定帧,将所有包含该帧的clip处理后的该帧进行平均,获得最后该帧的表示。
-
Middle-frame attention guidance: ID特征在随着帧的增长,可能会出现变化,为了缓解情况发生,提出了中间帧注意力的引导。取每个clip的中间帧,进行自注意力计算
Experiment
数据集:watermark-removed Shutterstock video dataset。
在每个视频的初始帧上,使用 Grounding-DINO 和 Segment-Anything (SAM 标识对象区域。整个视频的后续分割是使用 XMem 实现的。使用Llama为每个视频中的每个对象生成多个编辑提示。