LLM2D

摘要

掩蔽扩散模型（MDMs）因其在离散数据生成建模中的优越性能而成为一个热门研究课题，并且在语言建模任务中与自回归模型（ARMs）竞争。最近简化掩蔽扩散框架的努力进一步使其与连续空间扩散模型对齐，并提出了更为系统的训练和采样方案。然而，在本文中，我们揭示了MDMs的训练和采样理论上是无需时间变量的，这个时间变量被认为是扩散模型的关键特征，而实际上与掩蔽模型等价。在采样方面，我们提出的首次命中采样器（FHS）表明，这种采样方法在理论上等同于MDMs的原始生成过程，同时显著减轻了耗时的类别采样，并实现了20倍的加速。此外，我们的研究对MDMs是否真的能超越ARMs提出了质疑。我们首次发现了一个潜在的数值问题，即使使用常用的32位浮点精度，也会导致不准确的类别采样。我们表明，这个数值问题在理论和实验证据上降低了有效温度，导致标记多样性减少，使得之前仅通过不完整的生成困惑度指标评估生成质量的结果有些不公正。