LLM2D
扩散语言模型的理论优势与局限性
Theoretical Benefit and Limitation of Diffusion Language Model
作者: Guhao Feng, Yihan Geng, Jian Guan, Wei Wu, Liwei Wang, Di He
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.09622v1

摘要

arXiv:2502.09622v1 类型:交叉 摘要:扩散语言模型已成为一种有前途的文本生成方法。人们自然地认为这种方法可以成为自回归模型的高效替代品,因为每次扩散步骤中可以并行采样多个令牌。然而,其效率-准确性权衡尚未得到充分理解。在本文中,我们对广泛使用的扩散语言模型类型——掩码扩散模型(MDM)——进行了严格的理论分析,并发现其有效性很大程度上取决于目标评估指标。在轻度条件下,我们证明,当使用困惑度作为度量标准时,MDM在采样步骤中可以实现接近最优的困惑度,无论序列长度如何,这表明效率可以在不牺牲性能的情况下实现。然而,当我们使用序列错误率——这对于理解序列的“正确性”(例如,推理链的正确性)非常重要——时,我们表明必须将采样步骤线性扩展到序列长度,以获得“正确”的序列,从而消除了MDM相对于自回归模型的效率优势。我们的分析建立了理解和掌握MDM的优点和限制的第一个理论基础。所有理论发现都得到了实证研究的支持。