LLM2D

摘要

大型语言模型（LLM）展现出先进的推理能力，有潜力将自然语言问题转化为数学模型。然而，现有的开源运筹学数据集缺乏对建模过程的详细标注，例如变量定义，仅关注目标值，这阻碍了强化学习的应用。为了解决这个问题，我们发布了StructuredOR数据集，该数据集使用全面标签进行标注，捕捉完整的数学建模过程。我们进一步提出了BPP-Search算法，该算法使用波束搜索、过程奖励模型和成对偏好算法将强化学习集成到思维树结构中。这种方法能够有效地探索树结构，避免穷举搜索，同时提高准确性。在StructuredOR、NL4OPT和MAMO-ComplexLP数据集上的大量实验表明，BPP-Search显著优于最先进的方法，包括思维链、自洽性和思维树。在基于树的推理中，BPP-Search也优于与贪婪算法或波束搜索相结合的过程奖励模型，展现出更高的准确性和效率，并能够更快地检索正确的解决方案。