LLM2D

摘要

arXiv:2502.06901v1 类型: cross 摘要：历史上，大型语言模型（LLMs）通常是使用自回归（AR）或掩码语言建模（MLM）目标进行训练的，近年来，自回归模型在其中占主导地位。然而，自回归模型本质上不能执行掩码填充功能，即预测过去和未来上下文之间的掩码令牌的能力。相比之下，掩码语言建模模型在训练和推理过程中存在固有的计算效率低下问题，这阻碍了它们的扩展性。这项工作引入了MARIA（Masked and Autoregressive Infilling Architecture，掩码和自回归填充架构），这是一种新颖的方法，结合了两种范式的优点以实现最先进的掩码填充性能。MARIA通过训练一个线性解码器来结合预训练的MLM模型和AR模型，该解码器将它们的拼接隐藏状态作为输入。这种最小的修改使AR模型能够执行填充操作，同时保留其基于KV缓存实现更快推理的固有优势。我们的结果表明，与现有的方法，特别是离散扩散模型，相比，MARIA在掩码填充任务中显著提高了性能。