LLM2D
RV-Syn:基于结构化函数库的合理可验证数学推理数据合成
RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library
作者: Jiapeng Wang, Jinhao Jiang, Zhiqiang Zhang, Jun Zhou, Wayne Xin Zhao
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20426v1

摘要

arXiv:2504.20426v1 通告类型: 新增 摘要: 在大型语言模型(LLMs)中增强推理能力需要大量的高质量推理数据,尤其是在数学领域。现有的数据合成方法,例如从标注的训练集进行数据增强或基于相关知识点和文档直接生成问题,虽然扩展了数据集,但在生成过程中掌握问题的内在逻辑并确保解决方案的可验证性方面仍面临挑战。为了解决这些问题,我们提出了一种名为RV-Syn的新颖的理性验证数学合成方法。RV-Syn基于初始种子问题构建了一个结构化的数学运算函数库,并通过将该库中的Python格式化函数组合起来生成计算图作为解决方案。然后,这些图被反向翻译成复杂的问题。基于构建的计算图,我们实现了基于解决方案的逻辑感知问题生成。此外,计算图的可执行性确保了解决过程的可验证性。实验结果表明,RV-Syn超越了现有的合成方法,包括那些涉及人工生成问题的方法,实现了更有效的数据扩展。该方法为生成高质量的推理数据集提供了一个可扩展的框架。