LLM2D

摘要

arXiv:2502.09622v1 类型：交叉摘要：扩散语言模型已成为一种有前途的文本生成方法。人们自然地认为这种方法可以成为自回归模型的高效替代品，因为每次扩散步骤中可以并行采样多个令牌。然而，其效率-准确性权衡尚未得到充分理解。在本文中，我们对广泛使用的扩散语言模型类型——掩码扩散模型（MDM）——进行了严格的理论分析，并发现其有效性很大程度上取决于目标评估指标。在轻度条件下，我们证明，当使用困惑度作为度量标准时，MDM在采样步骤中可以实现接近最优的困惑度，无论序列长度如何，这表明效率可以在不牺牲性能的情况下实现。然而，当我们使用序列错误率——这对于理解序列的“正确性”（例如，推理链的正确性）非常重要——时，我们表明必须将采样步骤线性扩展到序列长度，以获得“正确”的序列，从而消除了MDM相对于自回归模型的效率优势。我们的分析建立了理解和掌握MDM的优点和限制的第一个理论基础。所有理论发现都得到了实证研究的支持。