摘要
arXiv:2504.14335v1 宣告类型: cross
摘要: 一对一可控视频编辑(OCVE)是一项重要但具有挑战性的工作,旨在将用户对视频第一帧所做的任何图像编辑工具编辑进行传播到所有后续帧,同时确保编辑帧与源帧之间的内容一致性。为实现这一目标,先前的方法采用DDIM反向变换将源帧转换为潜在噪声,然后将该潜在噪声在用户编辑的第一帧的条件下输入预训练的扩散模型以生成编辑后的视频。然而,DDIM反向变换过程累积了错误,阻碍了潜在噪声准确地重构源帧,最终影响生成的编辑帧的内容一致性。为克服这一问题,我们的方法通过基于视觉提示的新型视角进行OCVE,从而消除DDIM反向变换的需要。此外,受到可以执行多步骤一致采样以生成一系列内容一致图像的一致性模型的启发,我们提出了一种内容一致性采样(CCS),以确保生成的编辑帧与源帧之间的内容一致性。此外,我们基于Stein变分梯度下降引入了一种时间-内容一致性采样(TCS),以确保编辑帧之间的时序一致性。广泛的经验验证了我们方法的有效性。