摘要
利用大型语言模型 (LLM) 进行数据增强在数学推理方面取得了可喜的成果。然而,这些方法在问题多样性方面面临限制,可能将它们限制在域内/分布数据生成。为此,我们提出了 ControlMath,一种迭代方法,包括一个方程生成模块和两个基于 LLM 的代理。该模块创建了多样化的方程,然后由问题构建者代理将其转换为数学文字问题。反向代理根据“少即是多”原则过滤和选择高质量数据,在更少的数据点下取得更好的结果。这种方法能够生成多样化的数学问题,不受特定领域或分布的限制。因此,我们收集了 ControlMathQA,其中包含 190k 个数学文字问题。大量结果证明,将我们的数据集与 GSM8K 等域内数据集相结合,可以帮助提高模型的数学泛化能力,从而在特定领域内和超越特定领域都取得更好的性能。