LLM2D

摘要

近年来，基于扩散模型的图像编辑技术取得了显著进展。然而，高质量的视频编辑仍然是一项重大挑战。其中一个主要障碍是缺乏基于真实世界数据的开源、大规模视频编辑数据集，因为构建此类数据集既费时又费钱。此外，视频数据需要显著更多的标记进行表示，这大大增加了视频编辑模型的训练成本。最后，目前的视频编辑模型交互性有限，用户往往难以在一次尝试中有效地表达其编辑需求。为了应对这些挑战，本文介绍了一个数据集VIVID-10M和一个基线模型VIVID。VIVID-10M是第一个大规模混合图像-视频局部编辑数据集，旨在降低数据构建和模型训练成本，它包含970万个样本，涵盖了各种视频编辑任务。VIVID是一个在VIVID-10M上训练的多功能交互式视频局部编辑模型，支持实体添加、修改和删除。其核心是一个关键帧引导的交互式视频编辑机制，允许用户迭代地编辑关键帧并将其传播到其他帧，从而减少达到预期结果的延迟。大量的实验评估表明，我们的方法在视频局部编辑方面达到了最先进的性能，在自动化指标和用户研究中都超过了基线方法。VIVID-10M数据集和VIVID编辑模型将可在\url{https://inkosizhong.github.io/VIVID/}访问。