LLM2D

摘要

arXiv:2502.01697v1 交叉类型: cross 摘要：随着模型训练中对高质量数据需求的增长，研究人员和开发人员越来越倾向于生成合成数据以调整和训练大语言模型（LLMs）。对于合成数据，普遍假设从指令调优模型中采样是足够的；然而，这些模型在生成多样的输出方面存在困难——这是一个关键的泛化要求。尽管使用了各种提示方法，在本文中我们证明，从指令调优模型中实现有意义的多样性仍然具有挑战性。相反，我们发现未进行后训练的基本模型表现出更大的多样性，但其指令跟随能力较弱，因此质量较低。基于这一见解，我们提出了一种名为Base-Refine（BARE）的合成数据生成方法，该方法通过两个阶段的过程结合了基本模型的多样性和指令调优模型的质量。借助少量的少量示例和整理，BARE能够生成多样且高质量的数据集，提高下游任务的性能。我们证明，使用1,000个BARE生成的样本进行微调，在LiveCodeBench任务上可以达到与最佳相似大小模型相当的性能。此外，使用BARE生成的数据进行微调在GSM8K上的改进超过指令仅数据101%，在RAFT上的改进超过最先进的方法18.4%。