LLM2D
下一帧预测:基于半自回归建模的视频生成
Next Block Prediction: Video Generation via Semi-Autoregressive Modeling
作者: Shuhuai Ren, Shuming Ma, Xu Sun, Furu Wei
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.07737v2

摘要

arXiv:2502.07737v2 类型:交叉 摘要:下一个标记预测(NTP)是自回归(AR)视频生成的一种实际上的方法,但这种方式在单向依赖方面存在不足,并且推断速度较慢。在此项工作中,我们提出了一种半自回归(semi-AR)框架,称为下一个块预测(NBP)。通过均匀地将视频内容分解为等大小的块(例如,行或帧),我们将生成单位从单个标记转移到块,使得当前块中的每个标记能够同时预测下一个块中的相应标记。与传统的AR建模不同,我们的框架在每个块内部使用双向注意力,从而使标记能够捕捉到更 robust 的空间依赖性。通过并行预测多个标记,NBP 模型显著减少了生成步骤的数量,从而实现了更快、更高效的推断。我们的模型在 UCF101 上实现了 103.3 的 FVD 分数,在 K600 上实现了 25.5 的 FVD 分数,平均优于传统的 NTP 模型 4.4 分。此外,由于减少了推断步骤的数量,NBP 模型每秒生成 8.89 帧(分辨率为 128x128),实现了 11 倍的加速。我们还探索了从 700M 到 3B 参数的模型规模,观察到生成质量的显著提高,在 UCF101 上 FVD 分数从 103.3 下降到 55.3,在 K600 上从 25.5 下降到 19.5,表明了我们方法的可扩展性。