摘要
arXiv:2406.12831v3 通知类型: 替换-横跨
摘要:视频编辑是数字媒体的基本支柱,涵盖了娱乐、教育和专业沟通应用。然而,之前的许多方法往往忽视了全面理解全局和局部上下文的必要性,导致在时空维度上的编辑不够准确且不一致,尤其是在处理长视频时更为突出。在本文中,我们提出了VIA,一种统一的时空视频适应框架,用于全局和局部视频编辑,推动了在数分钟长度的视频上一致编辑的极限。首先,为了确保帧内的局部一致性,我们设计了测试时编辑适应,将预训练的图像编辑模型适应以提高潜在编辑方向与文本指令之间的一致性,并调整遮罩潜变量以实现精确的局部控制。此外,为了在整个视频序列中保持全局一致性,我们引入了时空适应,该适应递归地在关键帧中收集一致的注意力变量,并战略性地在整个序列中应用它们以实现编辑效果。广泛实验表明,与基准方法相比,我们的VIA方法产生的编辑对源视频更加忠实,时空上下文更加连贯,局部控制更加精确。更重要的是,我们展示了VIA可以在几分钟内实现一致的长视频编辑,从而为长视频序列上的高级视频编辑任务解锁潜力。