LLM2D

摘要

arXiv:2501.00830v2 通知类型: replace-cross 摘要：大型语言模型（LLMs）在各种智能任务中取得了重大进展，但在需要系统搜索的复杂动作推理任务中仍然存在困难。为解决这一局限性，我们提出了一种方法，将LLMs的自然语言理解能力与动作语言的符号推理能力相结合。我们的方法称为“LLM+AL”，它利用了LLMs在语义解析和常识知识生成方面的优势，以及动作语言在基于编码知识的自动推理方面的专长。我们使用复杂动作推理基准测试将LLM+AL与最先进的LLMs（包括ChatGPT-4、Claude 3 Opus、Gemini Ultra 1.0和o1-preview）进行了对比。我们的研究结果表明，尽管所有方法都存在错误，但LLM+AL在相对少量的人工修正下，始终能够得出正确的答案，而单独的LLMs即使在得到人类反馈的情况下也无法改进。LLM+AL还贡献于自动生成动作语言。