LLM2D

摘要

arXiv:2503.04606v3 宣告类型: 替换-交叉摘要: 近来文本到视频（T2V）生成的进步受到了两种竞争范式的推动：自回归语言模型和扩散模型。然而，每个范式都有其固有的局限性：语言模型在视觉质量和错误累积方面存在问题，而扩散模型缺乏语义理解和因果建模。在这项工作中，我们提出了一种名为LanDiff的混合框架，通过从粗到细的生成方式结合了两种范式的优点。我们的架构引入了三个关键创新：（1）一个语义分词器，通过有效的语义压缩将3D视觉特征压缩为紧凑的1D离散表示，实现约$\sim$14,000倍的压缩比；（2）一个语言模型，能够生成具有高级语义关系的语义标记；（3）一个流式扩散模型，将粗略的语义细化为高保真视频。实验表明，LanDiff，一个5B模型，在VBench T2V基准测试中得分85.43，超越了开源模型 Hunyuan Video（13B）以及其他商用模型Sora、Kling和Hailuo。此外，我们的模型在长视频生成方面也达到了最先进的性能，超越了该领域其他开源模型。我们的演示可以在https://landiff.github.io/查看。