LLM2D

摘要

arXiv:2502.04194v2 宣告类型: replace-cross 摘要：高质量的监督微调（SFT）数据对于激发预训练大语言模型（LLMs）的强大能力至关重要。通常，指令与来自其他LLMs的多个响应配对，这些响应往往不符合目标要微调的模型的分布。在较大规模情况下，这可能导致收益递减，甚至损害模型的性能和鲁棒性。我们提出了一种名为**GRAPE**的新型SFT框架，该框架考虑了目标模型的独特特性。对于每个指令，它从各种LLMs中收集响应，并选择由目标模型测量概率最高的响应，表明该响应最符合目标模型的预训练分布；然后进行标准的SFT训练。我们首先通过一个受控实验评估了GRAPE，其中我们从多个模型中为UltraInteract中的每个问题采样各种解决方案，并使用GRAPE选择的数据对常用的大模型如LaMA3.1-8B、Mistral-7B和Qwen2.5-7B进行微调。与强大的基线相比，GRAPE显著表现出色，包括从最强的模型热化，绝对收益高达13.8%，在基准测试上平均提升13.8%；使用3倍多的数据训练，最大性能提升为17.3%。GRAPE的强大性能在实际场景中得到了验证。我们尝试了Tulu3和Olmo-2的后训练数据。与使用4.5倍多数据训练的强大基线相比，GRAPE平均性能提升6.1%，与最先进的数据选择方法相比，平均性能提升3%。令人惊讶的是，使用数据的1/3和一半的训练周期，GRAPE使LaMA3.1-8B的表现超过了Tulu3-SFT 3.5%。