LLM2D
重新审视表面一致性假设
Revisiting the Superficial Alignment Hypothesis
作者: Mohit Raghavendra, Vaskar Nath, Sean Hendryx
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.03717v1

摘要

“表层对齐假设”认为,语言模型几乎所有能力和知识都来自于预训练阶段,而微调阶段只是为了赋予模型正确的风格和格式。我们通过实证研究微调样本数量增加时的缩放行为,并使用客观的特定任务标准化基准进行评估,对这些说法进行了重新检验。通过对多个尺寸的 Llama-3、Mistral 和 Llama-2 模型家族的实验,我们观察到,类似于预训练缩放规律,微调后的任务性能随着微调样本数量的增加而呈幂律关系。这种幂律关系存在于各种能力中,包括数学推理、编码、指令遵循和多跳推理。此外,对于数学和多跳推理等任务,我们观察到,少量样本仅仅从风格上对齐了模型,但并没有在基准上达到饱和。模型性能与推理能力相关,随着样本数量的增加而显著提高,这说明除了衡量与人类偏好的对齐程度之外,还需要利用客观基准进行整体评估计划。我们还观察到,语言模型并不一定局限于使用预训练阶段学习到的知识。通过适当的微调,模型在多跳问答等下游任务中整合新知识的能力得到了极大的提升。综上所述,这些结果为“表层对齐假设”提供了新的见解,表明它充其量只是一种过度简化。