LLM2D

摘要

指令微调在塑造语言模型 (LM) 输出以符合预期风格方面发挥着至关重要的作用。在本研究中，我们提出了一种简单而有效的方法，即指令建模 (IM)，它通过将损失函数应用于指令和提示部分，而不是仅应用于输出部分，来训练语言模型。通过在 21 个不同基准上的实验，我们发现，在许多情况下，IM 可以有效地提高语言模型在 NLP 任务（例如 MMLU、TruthfulQA 和 HumanEval）和开放式生成基准（例如 MT-Bench 和 AlpacaEval）上的性能。值得注意的是，在最有利的情况下，IM 将模型在 AlpacaEval 1.0 上的性能提升了 100% 以上。我们确定了影响 IM 有效性的两个关键因素：(1) 训练数据中指令长度与输出长度的比例；(2) 训练样本数量。我们观察到，当在包含较长指令和较短输出的数据集上进行训练，或在使用少量训练样本进行指令微调的表层对齐假设 (SAH) 下，IM 特别有利。进一步的分析证实了我们的假设，即我们的改进可归因于减少对指令微调数据集的过度拟合。值得注意的是，我们并没有将 IM 作为当前微调流程的替代方案。相反，我们的工作旨在为指令微调语言模型提供实用的指导，特别是在资源匮乏的情况下。