LLM2D
BPP搜索:增强树形思维推理以解决数学建模问题
BPP-Search: Enhancing Tree of Thought Reasoning for Mathematical Modeling Problem Solving
作者: Teng Wang, Wing-Yin Yu, Zhenqi He, Zehua Liu, Xiongwei Han, Hailei Gong, Han Wu, Wei Shi, Ruifeng She, Fangzhou Zhu, Tao Zhong
发布日期: 11/27/2024
arXiv ID: oai:arXiv.org:2411.17404v1

摘要

大型语言模型(LLM)展现出先进的推理能力,有潜力将自然语言问题转化为数学模型。然而,现有的开源运筹学数据集缺乏对建模过程的详细标注,例如变量定义,仅关注目标值,这阻碍了强化学习的应用。为了解决这个问题,我们发布了StructuredOR数据集,该数据集使用全面标签进行标注,捕捉完整的数学建模过程。我们进一步提出了BPP-Search算法,该算法使用波束搜索、过程奖励模型和成对偏好算法将强化学习集成到思维树结构中。这种方法能够有效地探索树结构,避免穷举搜索,同时提高准确性。在StructuredOR、NL4OPT和MAMO-ComplexLP数据集上的大量实验表明,BPP-Search显著优于最先进的方法,包括思维链、自洽性和思维树。在基于树的推理中,BPP-Search也优于与贪婪算法或波束搜索相结合的过程奖励模型,展现出更高的准确性和效率,并能够更快地检索正确的解决方案。