LLM2D

摘要

arXiv:2503.05639v3 宣告类型: replace-cross 摘要：视频修复，旨在恢复受损的视频内容，已经取得了显著进展。尽管取得了这些进展，现有的方法无论是在通过光学流和感受野先验传递未遮罩区域的像素，还是在时间维度上扩展图像修复模型时，都面临着在单一模型中生成完整遮罩对象或在背景上下文保留和前景生成之间平衡竞争目标的挑战。为了解决这些限制，我们提出了一种新颖的双流架构 VideoPainter，该架构结合了一个高效的上下文编码器（仅占主干参数的6%），用于处理遮罩视频并注入主干感知的背景上下文线索，任何预训练的视频 DiT 都可以生成语义一致的内容，且便于即插即用。这种架构分离显著减少了模型的学习复杂性，同时使关键背景上下文的精确整合成为可能。我们还引入了一种新颖的目标区域 ID 重采样技术，使任何长度的视频修复成为可能，极大地增强了其实用性。此外，我们利用当前的视觉理解模型建立了一个可扩展的数据集管道，贡献了 VPData 和 VPBench，以促进基于分割的视频修复训练和评估。这是迄今为止最大的视频修复数据集和基准，包含超过 39 万条多样化的片段。以修复作为管道基础，我们还探索了包括视频编辑和视频编辑对数据生成在内的下游应用，显示出竞争力的性能和明显的实用前景。广泛的实验表明，在八个关键指标下，包括视频质量、遮罩区域保留和文本一致性方面，VideoPainter 在任意长度视频修复和编辑方面表现出优越的性能。