摘要
arXiv:2502.04194v2 宣告类型: replace-cross
摘要:高质量的监督微调(SFT)数据对于激发预训练大语言模型(LLMs)的强大能力至关重要。通常,指令与来自其他LLMs的多个响应配对,这些响应往往不符合目标要微调的模型的分布。在较大规模情况下,这可能导致收益递减,甚至损害模型的性能和鲁棒性。我们提出了一种名为**GRAPE**的新型SFT框架,该框架考虑了目标模型的独特特性。对于每个指令,它从各种LLMs中收集响应,并选择由目标模型测量概率最高的响应,表明该响应最符合目标模型的预训练分布;然后进行标准的SFT训练。
我们首先通过一个受控实验评估了GRAPE,其中我们从多个模型中为UltraInteract中的每个问题采样各种解决方案,并使用GRAPE选择的数据对常用的大模型如LaMA3.1-8B、Mistral-7B和Qwen2.5-7B进行微调。与强大的基线相比,GRAPE显著表现出色,包括从最强的模型热化,绝对收益高达13.8%,在基准测试上平均提升13.8%;使用3倍多的数据训练,最大性能提升为17.3%。GRAPE的强大性能在实际场景中得到了验证。我们尝试了Tulu3和Olmo-2的后训练数据。与使用4.5倍多数据训练的强大基线相比,GRAPE平均性能提升6.1%,与最先进的数据选择方法相比,平均性能提升3%。令人惊讶的是,使用数据的1/3和一半的训练周期,GRAPE使LaMA3.1-8B的表现超过了Tulu3-SFT 3.5%。