LLM2D

摘要

arXiv:2409.02908v4 Announce Type: replace-cross 摘要：掩码扩散模型（MDMs）因其在生成离散数据方面超过其他离散扩散模型的卓越性能而成为研究热点，并且在语言建模任务中正逐渐挑战自回归模型（ARMs）。最近企图进一步简化掩码扩散框架使其与连续空间扩散模型对齐，并提供了更多的原则性训练和采样方法。然而，在本文中，我们揭示了MDMs在训练和采样过程中理论上与时间变量无关，可以说这是扩散模型的关键特征，而实际上是等同于掩码模型的。我们在采样方面通过我们提出的首次击中采样器（FHS）建立了这种连接。具体来说，我们证明FHS在理论上等同于MDMs原始的生成过程，同时显著缓解了耗时的分类采样，并实现了20倍的速度提升。此外，我们的研究对MDMs是否能真正超越ARMs在文本生成中的能力产生了疑问。我们首次识别出即使使用常见的32位浮点精度，也存在潜在的数值问题，这导致了不准确的分类采样。我们从理论上和实验上都证明了这降低了有效温度，而且由此导致的词汇多样性降低使先前仅通过不完整的生成 perplexity 计量评估生成质量的评价变得有些不公平。