LLM2D

摘要

arXiv:2407.21009v4 公告类型: 替换摘要: 当前的大型语言模型（LLM）训练将数学推理视为一项核心能力。随着公开可用资源的完全利用，对多样性和具有挑战性的数学问题的需求仍然未得到满足。仅依赖人类专家既耗时又昂贵，而LLM生成的问题往往缺乏所需的多样性和难度。我们提出了一种设计框架，结合了LLM的优势与人类在环方法，以生成一系列具有挑战性的数学问题。我们利用强LLM的元认知技能[Didolkar等人，2024]，从现有数学数据集中提取核心“技能”。这些技能构成了生成新颖且具有挑战性问题的基础，通过使用核心技能的随机配对提示LLM。在每个问题中使用两种不同的技能使其成为LLM和人类都无法处理的“分布外”任务。我们的管道通过多轮提示使LLM迭代生成和优化问题及其解决方案。然后，人类注释员验证并进一步优化问题，通过进一步与LLM交互提高其效率。将此管道应用于从MATH数据集[ Hendrycks等人，2021]提取的技能，产生了MATH$^2$ - 一个具有更高质量数学问题的数据集，这体现在以下几个方面：(a) 所有模型在MATH$^2$上的表现低于在MATH上的表现；(b) 使用MATH$^2$问题作为上下文示例时，MATH上的性能提升。尽管专注于数学，我们的方法似乎适用于需要结构化推理的其他领域，并且可能作为可扩展监督的一部分。值得注意的是，模型在新数据集上的表现之间存在显著的关系：MATH$^2$上的成功率是MATH上的平方，这表明解决MATH$^2$中的问题需要两个不同数学技能的非平凡组合。