摘要
arXiv:2502.00500v1 宣告类型: cross
摘要:本文介绍了一种称为视频潜在流匹配(VLFM)的高效视频建模过程。与先前的工作不同,这些工作随机采样视频生成的潜在块,我们的方法依赖于当前强大的预训练图像生成模型,建模一种可以在某些潜在空间中随时间变化的特定描述符引导的潜在块流,这些潜在块可以解码为时间相关的视频帧。我们首先推测视频中的多幅图像在某些潜在空间中相对于时间是可微的。基于这一猜想,我们引入HiPPO框架来近似多项式的最优投影以生成概率路径。我们的方法获得了有界普遍逼近误差的理论优势以及时间尺度鲁棒性。此外,VLFM能够处理任意帧率下的视频生成的插值和外推能力。我们在几个文本到视频数据集上进行了实验以展示我们方法的有效性。