LLM2D

摘要

arXiv:2411.17404v3 宣告类型: 替换摘要: 大型语言模型（LLMs）展现出高级的推理能力，能够将自然语言问题转化为数学模型。然而，现有开源的运营研究领域数据集在标注建模过程方面存在不足，如变量定义等，仅关注目标值，这阻碍了强化学习的应用。为解决这一问题，我们发布了StructuredOR数据集，该数据集标注了全面的标签，涵盖了完整的数学建模过程。我们还提出了BPP-Search算法，该算法利用Beam搜索结构、Process奖赏模型以及成对偏好算法将强化学习整合到基于树的思想结构中。这种方法能够高效探索树结构，避免穷尽搜索，同时提高准确性。在StructuredOR、NL4OPT和MAMO-ComplexLP数据集上的广泛实验表明，BPP-Search在性能上显著优于当前最先进的方法。在基于树的推理中，BPP-Search在准确性和效率方面表现出色，能够更快地检索到正确解。StructuredOR数据集可以在https://github.com/tengwang0318/StructuredOR获取。