摘要
arXiv:2502.00500v2 宣告类型: cross
摘要: 本文考虑了一种高效的视频建模过程,称为视频潜空间流匹配(VLFM)。与先前的工作不同,先前的工作通过随机采样潜空间中的片段来生成视频,我们的方法依赖于当前强大的预训练图像生成模型,建模一种由特定的字幕引导的潜空间片段流,这种流可以解码为时变的视频帧。我们首先假设一个视频中的多张图像在某些潜空间中相对于时间是可微的。基于这一假设,我们引入HiPPO框架来近似多项式的最佳投影以生成概率路径。我们的方法获得了有界通用逼近误差的理论优势以及时间尺度鲁棒性。此外,VLFM处理了以任意帧率生成视频的插值和外推能力。我们在几个文本到视频数据集上进行了实验,以展示我们方法的有效性。