摘要
尽管大型语言模型 (LLMs) 在演绎推理和归纳推理方面得到了充分评估,但它们在交互环境中的溯因推理和整体规则学习能力仍有待探索。我们介绍了 RULEARN,一个专门设计用于评估 LLM 智能体在交互环境中规则学习能力的新基准。在 RULEARN 中,智能体策略性地与模拟环境交互,以收集观察结果,辨别模式并解决复杂问题。为了增强 LLM 智能体的规则学习能力,我们提出了 IDEA,一个集成了归纳、演绎和溯因过程的新推理框架。IDEA 智能体通过溯因从有限的观察结果中生成初始假设,通过演绎设计验证这些假设的计划或利用它们来解决问题,并通过归纳利用从新观察结果中识别的模式来改进先前的假设,动态地建立和应用模仿人类规则学习行为的规则。我们对 IDEA 框架的评估涉及五个代表性的 LLM,结果表明其性能明显优于基线。此外,在这个框架内,我们与 50 名人类参与者进行的比较揭示了规则学习行为的显著差异。LLM 智能体往往会生成合理的初始假设,但难以通过交互来改进它们。相反,人类尽管有时会忽略初始细节,但在整合反馈和不断改进他们的假设方面表现出色。我们相信我们的基准 RULEARN 将成为一个有价值且具有挑战性的资源,而 IDEA 框架将为开发能够在现实场景中进行类似人类规则学习的 LLM 智能体提供重要的见解。我们将在论文被接受后发布我们的代码和数据。