LLM2D
下一区块预测:通过半自回归建模生成视频
Next Block Prediction: Video Generation via Semi-Auto-Regressive Modeling
作者: Shuhuai Ren, Shuming Ma, Xu Sun, Furu Wei
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.07737v1

摘要

arXiv:2502.07737v1 交叉类型: cross 摘要: 下一个词预测(NTP)是自回归(AR)视频生成的一种事实上的方法,但这种方法遭受着次优的单向依赖性和缓慢的推理速度。在本文中,我们提出了一种半自回归(半AR)框架,称为下一个块预测(NBP),用于视频生成。通过均匀地将视频内容分解为等大的块(例如,行或帧),我们将生成单元从个体词元转移到块,允许当前块中的每个词元同时预测下一个块中的对应词元。与传统的AR建模不同,我们的框架在每个块内采用双向注意力,使词元能够捕捉更 robust 的空间依赖性。通过并行预测多个词元,NBP模型显著减少了生成步骤的数量,从而提高了推理速度和效率。我们的模型在UCF101和K600上的FVD分数分别为103.3和25.5,相比于传统的NTP模型平均提高了4.4。此外,得益于减少的推理步骤数量,NBP模型每秒可以生成8.89帧(128x128分辨率),实现了11倍的加速。我们还探索了从700M到3B参数的模型规模,观察到生成质量有了显著提高,UCF101上的FVD分数从103.3降至55.3,K600上的FVD分数从25.5降至19.5,展示了我们方法的可扩展性。