摘要
arXiv:2411.17404v3 宣告类型: 替换
摘要: 大型语言模型(LLMs)展现出高级的推理能力,能够将自然语言问题转化为数学模型。然而,现有开源的运营研究领域数据集在标注建模过程方面存在不足,如变量定义等,仅关注目标值,这阻碍了强化学习的应用。为解决这一问题,我们发布了StructuredOR数据集,该数据集标注了全面的标签,涵盖了完整的数学建模过程。我们还提出了BPP-Search算法,该算法利用Beam搜索结构、Process奖赏模型以及成对偏好算法将强化学习整合到基于树的思想结构中。这种方法能够高效探索树结构,避免穷尽搜索,同时提高准确性。在StructuredOR、NL4OPT和MAMO-ComplexLP数据集上的广泛实验表明,BPP-Search在性能上显著优于当前最先进的方法。在基于树的推理中,BPP-Search在准确性和效率方面表现出色,能够更快地检索到正确解。StructuredOR数据集可以在https://github.com/tengwang0318/StructuredOR获取。