摘要
利用强大的语言模型(LM)生成高质量的合成数据来提高LM的推理性能是一种常见的策略。在这项工作中,我们重新审视了在固定的推理预算(例如,FLOPs)下,这种策略是否计算最优。为此,我们研究了使用更强大但更昂贵(SE)模型与更弱但更便宜(WC)模型生成合成数据之间的权衡。我们根据三个关键指标评估生成的数据:覆盖率、多样性和误报率,并表明来自WC模型的数据可能具有更高的覆盖率和多样性,但也表现出更高的误报率。然后,我们在不同的设置中对来自SE和WC模型的数据进行LM微调:知识蒸馏、自我改进和一种新颖的弱到强的改进设置,其中较弱的LM教导较强的LM进行推理。我们的研究结果表明,在多个基准测试和多个WC和SE模型的选择中,使用WC生成的数据进行微调的模型始终优于使用SE生成的数据进行训练的模型。这些结果挑战了依赖SE模型进行合成数据生成的普遍做法,表明WC可能是训练高级LM推理器的计算最优方法。