LLM2D

摘要

arXiv:2502.01697v1 类型: cross 摘要：随着对模型训练中高质量数据的需求增长，研究人员和开发人员越来越多地生成合成数据以调整和训练大规模语言模型(LLMs)。关于合成数据的一个常见假设是，从指令调优模型中采样就足够了；然而，这些模型在产生多样性的输出方面存在困难——这是泛化的关键要求。尽管存在各种提示方法，但在本文中我们证明，从指令调优模型中实现有意义的多样性仍然具有挑战性。相反，我们发现未经后训练的基本模型在多样性方面表现出更大的优势，但在指令遵循方面的能力较差，因此质量较低。基于这一洞察，我们提出了Base-Refine (BARE) 合成数据生成方法，通过两阶段过程将基本模型的多样性与指令调优模型的质量相结合。通过少量的少样本示例和筛选，BARE生成多样性和高质量的数据集，改善了下游任务的性能。我们展示了使用仅1,000个BARE生成的样本进行微调，可以在LiveCodeBench任务上达到与最佳类似规模模型相当的性能。此外，使用BARE生成的数据进行微调，在GSM8K上比仅指令的数据实现了101%的改进，在RAFT上比最先进的方法实现了18.4%的改进。