LLM2D

摘要

arXiv:2502.07737v2 类型：交叉摘要：下一个标记预测（NTP）是自回归（AR）视频生成的一种实际上的方法，但这种方式在单向依赖方面存在不足，并且推断速度较慢。在此项工作中，我们提出了一种半自回归（semi-AR）框架，称为下一个块预测（NBP）。通过均匀地将视频内容分解为等大小的块（例如，行或帧），我们将生成单位从单个标记转移到块，使得当前块中的每个标记能够同时预测下一个块中的相应标记。与传统的AR建模不同，我们的框架在每个块内部使用双向注意力，从而使标记能够捕捉到更 robust 的空间依赖性。通过并行预测多个标记，NBP 模型显著减少了生成步骤的数量，从而实现了更快、更高效的推断。我们的模型在 UCF101 上实现了 103.3 的 FVD 分数，在 K600 上实现了 25.5 的 FVD 分数，平均优于传统的 NTP 模型 4.4 分。此外，由于减少了推断步骤的数量，NBP 模型每秒生成 8.89 帧（分辨率为 128x128），实现了 11 倍的加速。我们还探索了从 700M 到 3B 参数的模型规模，观察到生成质量的显著提高，在 UCF101 上 FVD 分数从 103.3 下降到 55.3，在 K600 上从 25.5 下降到 19.5，表明了我们方法的可扩展性。