LLM2D
兼顾两端:结合语言模型和扩散模型进行视频生成
The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation
作者: Aoxiong Yin, Kai Shen, Yichong Leng, Xu Tan, Xinyu Zhou, Juncheng Li, Siliang Tang
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2503.04606v3

摘要

arXiv:2503.04606v3 宣告类型: 替换-交叉 摘要: 近来文本到视频(T2V)生成的进步受到了两种竞争范式的推动:自回归语言模型和扩散模型。然而,每个范式都有其固有的局限性:语言模型在视觉质量和错误累积方面存在问题,而扩散模型缺乏语义理解和因果建模。在这项工作中,我们提出了一种名为LanDiff的混合框架,通过从粗到细的生成方式结合了两种范式的优点。我们的架构引入了三个关键创新:(1)一个语义分词器,通过有效的语义压缩将3D视觉特征压缩为紧凑的1D离散表示,实现约$\sim$14,000倍的压缩比;(2)一个语言模型,能够生成具有高级语义关系的语义标记;(3)一个流式扩散模型,将粗略的语义细化为高保真视频。实验表明,LanDiff,一个5B模型,在VBench T2V基准测试中得分85.43,超越了开源模型 Hunyuan Video(13B)以及其他商用模型Sora、Kling和Hailuo。此外,我们的模型在长视频生成方面也达到了最先进的性能,超越了该领域其他开源模型。我们的演示可以在https://landiff.github.io/查看。