摘要
arXiv:2502.04194v1 宣告类型: cross
摘要: 高质量的监督微调(SFT)数据对于从预训练的大语言模型(LLMs)中激发出色的能力至关重要。通常,指令会与多种响应配对,这些响应是从其他LLMs中采样出来的,往往与目标模型的分布不符。在大规模情况下,这会导致报酬递减甚至损害模型的性能和鲁棒性。我们提出了一种名为**GRAPE**的新型SFT框架,该框架考虑了目标模型的独特特性。对于每一个指令,GRAPE都会从各种LLMs中收集响应,并选择由目标模型测量概率最高的一条,表明它与目标模型的预训练分布最一致;然后进行标准的SFT训练。
我们首先通过一个受控实验评估了GRAPE,其中在UltraInteract中为每个问题从多个模型中采样各种解决方案,并在GRAPE选择的数据上对LLaMA3.1-8B、Mistral-7B和Qwen2.5-7B等常用的LM进行微调。GRAPE在这方面的表现显著优于强基准模型,包括绝对收益高达13.8%的最佳模型蒸馏,以及在基准测试中使用3倍数据训练的最大性能提升17.3%。GRAPE的强劲表现适用于现实场景。我们尝试了用于Tulu3和Olmo-2的后训练数据。与在4.5倍数据上训练的强基准模型相比,GRAPE平均性能提升6.1%;与最先进的数据选择方法相比,平均性能提升3%。令人惊讶的是,使用数据的1/3和一半的迭代次数,GRAPE使LLaMA3.1-8B超越了Tulu3-SFT 3.5%的性能。