LLM2D

摘要

利用强大的语言模型（LM）生成高质量的合成数据来提高LM的推理性能是一种常见的策略。在这项工作中，我们重新审视了在固定的推理预算（例如，FLOPs）下，这种策略是否计算最优。为此，我们研究了使用更强大但更昂贵（SE）模型与更弱但更便宜（WC）模型生成合成数据之间的权衡。我们根据三个关键指标评估生成的数据：覆盖率、多样性和误报率，并表明来自WC模型的数据可能具有更高的覆盖率和多样性，但也表现出更高的误报率。然后，我们在不同的设置中对来自SE和WC模型的数据进行LM微调：知识蒸馏、自我改进和一种新颖的弱到强的改进设置，其中较弱的LM教导较强的LM进行推理。我们的研究结果表明，在多个基准测试和多个WC和SE模型的选择中，使用WC生成的数据进行微调的模型始终优于使用SE生成的数据进行训练的模型。这些结果挑战了依赖SE模型进行合成数据生成的普遍做法，表明WC可能是训练高级LM推理器的计算最优方法。