摘要
先前的工作尝试通过各种提示工程技术来提升大型语言模型 (LLM) 在规划和调度任务上的性能。虽然这些方法可以在测试的分布内发挥作用,但它们既不鲁棒也不可预测。可以通过复合LLM架构来解决这一限制,其中LLM与其他组件协同工作以确保可靠性。本文对一种复合LLM架构——LLM-Modulo框架进行了技术评估。在这个框架中,LLM与一套完整的健全验证器配对,这些验证器验证其输出,并在其失败时重新提示它。这种方法确保系统永远不会输出任何错误的输出,因此保证每个生成的输出都是正确的——这是以前的技术无法实现的。我们在四个调度领域进行的评估结果表明,使用各种模型,LLM-Modulo框架实现了显著的性能提升。此外,我们还探索了对框架基本配置的修改,并评估了它们对整体系统性能的影响。