摘要
尽管大型语言模型 (LLM) 在演绎和归纳推理方面得到了充分评估,但它们在交互式环境中的溯因推理和整体规则学习方面的能力尚待探索。我们引入了 RULEARN,这是一个专门为评估 LLM 智能体在交互式环境中的规则学习能力而设计的全新基准。在 RULEARN 中,智能体以策略性的方式与模拟环境交互,以收集观察结果、识别模式并解决复杂问题。为了增强 LLM 智能体的规则学习能力,我们提出了 IDEA,这是一个将归纳、演绎和溯因过程相结合的新推理框架。IDEA 智能体通过溯因从有限的观察结果中生成初始假设,通过演绎设计验证这些假设的计划或利用它们来解决问题,并通过归纳利用从新观察结果中识别的模式来改进先前的假设,动态地建立和应用模仿人类规则学习行为的规则。我们对 IDEA 框架的评估(涉及五个具有代表性的 LLM)表明,与基线相比,它取得了显著的改进。此外,在该框架内,我们与 50 名人类参与者的比较揭示了规则学习行为的显著差异。LLM 智能体倾向于生成合理的初始假设,但难以通过交互来改进它们。相反,人类虽然有时会忽略初始细节,但在整合反馈和不断改进其假设方面却表现出色。我们相信,我们的基准 RULEARN 将成为一个有价值且具有挑战性的资源,而 IDEA 框架将为开发能够在现实世界场景中进行类似人类规则学习的 LLM 智能体提供重要的见解。我们将在论文被接受后发布我们的代码和数据。