摘要
arXiv:2501.00830v2 通知类型: replace-cross
摘要:大型语言模型(LLMs)在各种智能任务中取得了重大进展,但在需要系统搜索的复杂动作推理任务中仍然存在困难。为解决这一局限性,我们提出了一种方法,将LLMs的自然语言理解能力与动作语言的符号推理能力相结合。我们的方法称为“LLM+AL”,它利用了LLMs在语义解析和常识知识生成方面的优势,以及动作语言在基于编码知识的自动推理方面的专长。我们使用复杂动作推理基准测试将LLM+AL与最先进的LLMs(包括ChatGPT-4、Claude 3 Opus、Gemini Ultra 1.0和o1-preview)进行了对比。我们的研究结果表明,尽管所有方法都存在错误,但LLM+AL在相对少量的人工修正下,始终能够得出正确的答案,而单独的LLMs即使在得到人类反馈的情况下也无法改进。LLM+AL还贡献于自动生成动作语言。