LLM2D

摘要

arXiv:2408.16673v2 宣布类型: 替换交叉摘要：大规模语言模型（LLMs）通常依赖于监督微调（SFT）来专门应用于下游任务，而交叉熵（CE）损失则是默认选择。然而，CE最大化观察到的数据的似然性，而忽略了其他可能性。因此，CE通常会导致模型输出的多样性降低，这阻碍了对外进一步发展的探索，因为进一步的发展需要通过抽样来探索更好的响应。为了解决这一局限性，本文提出了一种新的游戏论形式的SFT。在这种框架中，引入了一个辅助变量来调节学习过程。我们证明，提出的游戏论方法与带熵正则化的逆KL最小化问题有关。这种正则化可以防止过度记忆训练数据，并促进输出的多样性。为了实现这一框架，我们开发了GEM，这是一种与CE相比计算效率更高的新训练算法，利用了一些LLM的独特性质。对从3B到70B参数的预训练模型进行的实证研究表明，GEM在下游性能方面达到了与CE相当的水平，同时显著提高了输出的多样性。这种多样性的增加转化为了在聊天和代码生成任务测试时计算缩放方面的性能增益。此外，我们观察到，保持输出的多样性还具有额外的好处，即减轻遗忘，因为保持多样化的输出促使模型在整个训练过程中保留预训练知识。