LLM2D
多令牌预测需要寄存器
Multi-Token Prediction Needs Registers
作者: Anastasios Gerontopoulos, Spyros Gidaris, Nikos Komodakis
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2505.10518v1

摘要

arXiv:2505.10518v1 类型: cross 摘要:多令牌预测已经 emerged 作为一种提高语言模型预训练的有前途的目标,但其优势并未一致地推广到微调等其他设置中。在本文中,我们提出了一种名为 MuToR 的简单且有效的方法,该方法将可学习的寄存器令牌交错到输入序列中,每个寄存器令牌的任务是预测未来的目标。与现有方法相比,MuToR 具有以下几个关键优势:它仅引入了微不足道数量的额外参数,不需要架构更改——确保与即用型预训练语言模型兼容——并且仍然与下一个令牌的预训练目标保持一致,使其特别适合监督微调。此外,它自然支持可扩展的预测时间范围。我们展示了 MuToR 在各种用例中的有效性和灵活性,包括监督微调、参数高效微调(PEFT)和预训练,涵盖了语言和视觉领域的具有挑战性的生成任务。我们的代码将在以下地址提供:https://github.com/nasosger/MuToR。