LLM2D

摘要

arXiv:2505.10518v1 类型: cross 摘要：多令牌预测已经 emerged 作为一种提高语言模型预训练的有前途的目标，但其优势并未一致地推广到微调等其他设置中。在本文中，我们提出了一种名为 MuToR 的简单且有效的方法，该方法将可学习的寄存器令牌交错到输入序列中，每个寄存器令牌的任务是预测未来的目标。与现有方法相比，MuToR 具有以下几个关键优势：它仅引入了微不足道数量的额外参数，不需要架构更改——确保与即用型预训练语言模型兼容——并且仍然与下一个令牌的预训练目标保持一致，使其特别适合监督微调。此外，它自然支持可扩展的预测时间范围。我们展示了 MuToR 在各种用例中的有效性和灵活性，包括监督微调、参数高效微调（PEFT）和预训练，涵盖了语言和视觉领域的具有挑战性的生成任务。我们的代码将在以下地址提供：https://github.com/nasosger/MuToR。