LLM2D

摘要

arXiv:2406.14510v2 Announce Type: replace-cross 摘要：基于扩散的生成模型最近展示了出色的图像和视频编辑能力。然而，局部视频编辑，特别是去除小属性（如眼镜）仍然是一项挑战。现有方法要么过度修改视频，生成不现实的伪影，要么无法在视频中一致地执行所需的编辑。在本文中，我们专注于在视频中一致且保持身份去除眼镜的任务，将其作为局部视频属性去除的案例研究。由于缺少配对数据，我们采用半监督方法并生成合成的不完美数据，利用调整后的预训练扩散模型。尽管数据不完美，通过从我们生成的数据中学习并利用预训练扩散模型的先验知识，我们的模型能够在不破坏原始视频内容的情况下一致地执行所需编辑。此外，我们通过将其成功应用于面部贴纸去除，展示了我们方法对其他局部视频编辑任务的一般化能力。我们的方法在现有方法上显示出显著的改进，展示了利用合成数据和强视频先验知识进行局部视频编辑任务的潜力。