LLM2D

摘要

arXiv:2502.04194v1 宣告类型: cross 摘要: 高质量的监督微调（SFT）数据对于从预训练的大语言模型（LLMs）中激发出色的能力至关重要。通常，指令会与多种响应配对，这些响应是从其他LLMs中采样出来的，往往与目标模型的分布不符。在大规模情况下，这会导致报酬递减甚至损害模型的性能和鲁棒性。我们提出了一种名为**GRAPE**的新型SFT框架，该框架考虑了目标模型的独特特性。对于每一个指令，GRAPE都会从各种LLMs中收集响应，并选择由目标模型测量概率最高的一条，表明它与目标模型的预训练分布最一致；然后进行标准的SFT训练。我们首先通过一个受控实验评估了GRAPE，其中在UltraInteract中为每个问题从多个模型中采样各种解决方案，并在GRAPE选择的数据上对LLaMA3.1-8B、Mistral-7B和Qwen2.5-7B等常用的LM进行微调。GRAPE在这方面的表现显著优于强基准模型，包括绝对收益高达13.8%的最佳模型蒸馏，以及在基准测试中使用3倍数据训练的最大性能提升17.3%。GRAPE的强劲表现适用于现实场景。我们尝试了用于Tulu3和Olmo-2的后训练数据。与在4.5倍数据上训练的强基准模型相比，GRAPE平均性能提升6.1%；与最先进的数据选择方法相比，平均性能提升3%。令人惊讶的是，使用数据的1/3和一半的迭代次数，GRAPE使LLaMA3.1-8B超越了Tulu3-SFT 3.5%的性能。