LLM2D

摘要

“表层对齐假设”认为，语言模型几乎所有能力和知识都来自于预训练阶段，而微调阶段只是为了赋予模型正确的风格和格式。我们通过实证研究微调样本数量增加时的缩放行为，并使用客观的特定任务标准化基准进行评估，对这些说法进行了重新检验。通过对多个尺寸的 Llama-3、Mistral 和 Llama-2 模型家族的实验，我们观察到，类似于预训练缩放规律，微调后的任务性能随着微调样本数量的增加而呈幂律关系。这种幂律关系存在于各种能力中，包括数学推理、编码、指令遵循和多跳推理。此外，对于数学和多跳推理等任务，我们观察到，少量样本仅仅从风格上对齐了模型，但并没有在基准上达到饱和。模型性能与推理能力相关，随着样本数量的增加而显著提高，这说明除了衡量与人类偏好的对齐程度之外，还需要利用客观基准进行整体评估计划。我们还观察到，语言模型并不一定局限于使用预训练阶段学习到的知识。通过适当的微调，模型在多跳问答等下游任务中整合新知识的能力得到了极大的提升。综上所述，这些结果为“表层对齐假设”提供了新的见解，表明它充其量只是一种过度简化。