LLM2D

摘要

当前大型语言模型（LLM）的训练将数学推理作为一项核心能力。随着公开可用资源的完全利用，对多样化和具有挑战性的数学问题存在未满足的需求。仅仅依靠人类专家既耗时又昂贵，而LLM生成的题目往往缺乏必要的多样性和难度。我们提出了一种设计框架，将LLM的优势与人机协同方法相结合，以生成多种具有挑战性的数学问题。我们利用强大LLM的元认知技能[Didolkar等人，2024]从现有的数学数据集中提取核心“技能”。这些技能作为通过提示LLM使用随机的核心技能对来生成新颖且困难的问题的基础。在每个问题中使用两种不同的技能使得找到这些问题对于LLM和人类来说都是一项“超出分布”的任务。我们的流程利用LLM通过多轮提示迭代地生成和完善问题和解决方案。人类注释者随后验证并进一步完善问题，通过进一步的LLM交互提高其效率。将此流程应用于从MATH数据集[Hendrycks等人，2021]中提取的技能，生成了MATH$^2$——一个更高质量的数学问题数据集，这可以通过以下证据证明：(a) 所有模型在MATH$^2$上的表现均低于在MATH上的表现 (b) 当使用MATH$^2$问题作为上下文示例时，在MATH上的表现更高。尽管重点关注数学，但我们的方法似乎适用于其他需要结构化推理的领域，并且有可能作为可扩展监督的一个组成部分。同样令人感兴趣的是在模型在新的数据集上的表现之间观察到的显著关系：在MATH$^2$上的成功率是MATH上的平方，这表明成功解决MATH$^2$中的问题需要两种不同数学技能的非平凡组合。