LLM2D

摘要

arXiv:2502.07737v1 交叉类型: cross 摘要: 下一个词预测(NTP)是自回归(AR)视频生成的一种事实上的方法，但这种方法遭受着次优的单向依赖性和缓慢的推理速度。在本文中，我们提出了一种半自回归(半AR)框架，称为下一个块预测(NBP)，用于视频生成。通过均匀地将视频内容分解为等大的块（例如，行或帧），我们将生成单元从个体词元转移到块，允许当前块中的每个词元同时预测下一个块中的对应词元。与传统的AR建模不同，我们的框架在每个块内采用双向注意力，使词元能够捕捉更 robust 的空间依赖性。通过并行预测多个词元，NBP模型显著减少了生成步骤的数量，从而提高了推理速度和效率。我们的模型在UCF101和K600上的FVD分数分别为103.3和25.5，相比于传统的NTP模型平均提高了4.4。此外，得益于减少的推理步骤数量，NBP模型每秒可以生成8.89帧（128x128分辨率），实现了11倍的加速。我们还探索了从700M到3B参数的模型规模，观察到生成质量有了显著提高，UCF101上的FVD分数从103.3降至55.3，K600上的FVD分数从25.5降至19.5，展示了我们方法的可扩展性。