LLM2D
视频潜在流匹配:用于视频插值和外推的最佳多项式投影
Video Latent Flow Matching: Optimal Polynomial Projections for Video Interpolation and Extrapolation
作者: Yang Cao, Zhao Song, Chiwun Yang
发布日期: 2/5/2025
arXiv ID: 2502.00500

摘要

arXiv:2502.00500v2 宣告类型: replace-cross 摘要:本文考虑了一个高效的视频建模过程,称为视频潜在流匹配(VLFM)。与以往工作随机采样视频生成中的潜在补丁不同,我们的方法依赖于当前强大的预训练图像生成模型,构建了一种特定于特定说明的潜在补丁流,这些补丁可以解码为时间相关的视频帧。我们首先推测视频中的多张图像在某个潜在空间中对时间是可微的。基于这一假设,我们引入了HiPPO框架来近似多项式的最佳投影,以生成概率路径。我们的方法获得了有界的普遍逼近误差理论优势和时间尺度鲁棒性。此外,VLFM能够处理任意帧率的视频生成的插值和外推能力。我们在几个文本到视频的数据集上进行了实验,以展示我们方法的有效性。