摘要
arXiv:2407.21009v4 公告类型: 替换
摘要: 当前的大型语言模型(LLM)训练将数学推理视为一项核心能力。随着公开可用资源的完全利用,对多样性和具有挑战性的数学问题的需求仍然未得到满足。仅依赖人类专家既耗时又昂贵,而LLM生成的问题往往缺乏所需的多样性和难度。我们提出了一种设计框架,结合了LLM的优势与人类在环方法,以生成一系列具有挑战性的数学问题。我们利用强LLM的元认知技能[Didolkar等人,2024],从现有数学数据集中提取核心“技能”。这些技能构成了生成新颖且具有挑战性问题的基础,通过使用核心技能的随机配对提示LLM。在每个问题中使用两种不同的技能使其成为LLM和人类都无法处理的“分布外”任务。我们的管道通过多轮提示使LLM迭代生成和优化问题及其解决方案。然后,人类注释员验证并进一步优化问题,通过进一步与LLM交互提高其效率。将此管道应用于从MATH数据集[ Hendrycks等人,2021]提取的技能,产生了MATH$^2$ - 一个具有更高质量数学问题的数据集,这体现在以下几个方面:(a) 所有模型在MATH$^2$上的表现低于在MATH上的表现;(b) 使用MATH$^2$问题作为上下文示例时,MATH上的性能提升。尽管专注于数学,我们的方法似乎适用于需要结构化推理的其他领域,并且可能作为可扩展监督的一部分。值得注意的是,模型在新数据集上的表现之间存在显著的关系:MATH$^2$上的成功率是MATH上的平方,这表明解决MATH$^2$中的问题需要两个不同数学技能的非平凡组合。