摘要
arXiv:2412.17874v2 宣布类型: replace-cross
摘要: 在本文中,我们介绍了并应用了 Operations Research Question Answering (ORQA),这是一个新的基准,旨在评估大型语言模型 (LLMs) 在运筹学 (OR) 专门技术领域的泛化能力。该基准评估LLMs在面对多种复杂优化问题时,能否模拟运筹学专家的知识和推理能力。由运筹学专家开发的数据集包含需要多步推理来构建其数学模型的真实世界优化问题。我们对各种开源LLMs(如LLaMA 3.1、DeepSeek和Mixtral)的评估揭示了它们性能的局限性,突显了它们在泛化到专门技术领域方面的差距。本文为LLMs的泛化能力持续讨论做出了贡献,并为该领域的未来研究提供了宝贵见解。该数据集和评估代码已公开提供。