LLM2D

摘要

arXiv:2502.00500v2 宣告类型: replace-cross 摘要：本文考虑了一个高效的视频建模过程，称为视频潜在流匹配（VLFM）。与以往工作随机采样视频生成中的潜在补丁不同，我们的方法依赖于当前强大的预训练图像生成模型，构建了一种特定于特定说明的潜在补丁流，这些补丁可以解码为时间相关的视频帧。我们首先推测视频中的多张图像在某个潜在空间中对时间是可微的。基于这一假设，我们引入了HiPPO框架来近似多项式的最佳投影，以生成概率路径。我们的方法获得了有界的普遍逼近误差理论优势和时间尺度鲁棒性。此外，VLFM能够处理任意帧率的视频生成的插值和外推能力。我们在几个文本到视频的数据集上进行了实验，以展示我们方法的有效性。