LLM2D
VIVID-10M:一个用于多功能交互式视频局部编辑的数据集和基线
VIVID-10M: A Dataset and Baseline for Versatile and Interactive Video Local Editing
作者: Jiahao Hu, Tianxiong Zhong, Xuebo Wang, Boyuan Jiang, Xingye Tian, Fei Yang, Pengfei Wan, Di Zhang
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.15260v1

摘要

近年来,基于扩散模型的图像编辑技术取得了显著进展。然而,高质量的视频编辑仍然是一项重大挑战。其中一个主要障碍是缺乏基于真实世界数据的开源、大规模视频编辑数据集,因为构建此类数据集既费时又费钱。此外,视频数据需要显著更多的标记进行表示,这大大增加了视频编辑模型的训练成本。最后,目前的视频编辑模型交互性有限,用户往往难以在一次尝试中有效地表达其编辑需求。为了应对这些挑战,本文介绍了一个数据集VIVID-10M和一个基线模型VIVID。VIVID-10M是第一个大规模混合图像-视频局部编辑数据集,旨在降低数据构建和模型训练成本,它包含970万个样本,涵盖了各种视频编辑任务。VIVID是一个在VIVID-10M上训练的多功能交互式视频局部编辑模型,支持实体添加、修改和删除。其核心是一个关键帧引导的交互式视频编辑机制,允许用户迭代地编辑关键帧并将其传播到其他帧,从而减少达到预期结果的延迟。大量的实验评估表明,我们的方法在视频局部编辑方面达到了最先进的性能,在自动化指标和用户研究中都超过了基线方法。VIVID-10M数据集和VIVID编辑模型将可在\url{https://inkosizhong.github.io/VIVID/}访问。