LLM2D

摘要

arXiv:2504.11626v1 类型: cross 摘要：通过各种指令调整或后训练步骤获得的指令模型通常被认为优于其基础版本，具有更好的实用性和性能。虽然模型获得了指令跟随的能力，但指令调整可能会导致模型忘记预训练的知识，或者使模型变得过于对话化和冗长。这反过来又会导致短样本上下文学习性能的下降。在这项工作中，我们通过部分适应方法削弱指令调整的强度，研究基础模型和指令模型之间的性能轨迹。我们发现，在多个模型家族和模型规模中，削弱指令调整的强度可以在涵盖多种经典自然语言任务的短样本上下文学习基准上带来实质性的改进。这以AlpacaEval衡量的指令跟随能力有所下降为代价。我们的研究揭示了在实践中值得考虑的上下文学习与指令跟随能力之间的潜在权衡。