LLM2D

摘要

尽管大型语言模型 (LLMs) 在演绎推理和归纳推理方面得到了充分评估，但它们在交互环境中的溯因推理和整体规则学习能力仍有待探索。我们介绍了 RULEARN，一个专门设计用于评估 LLM 智能体在交互环境中规则学习能力的新基准。在 RULEARN 中，智能体策略性地与模拟环境交互，以收集观察结果，辨别模式并解决复杂问题。为了增强 LLM 智能体的规则学习能力，我们提出了 IDEA，一个集成了归纳、演绎和溯因过程的新推理框架。IDEA 智能体通过溯因从有限的观察结果中生成初始假设，通过演绎设计验证这些假设的计划或利用它们来解决问题，并通过归纳利用从新观察结果中识别的模式来改进先前的假设，动态地建立和应用模仿人类规则学习行为的规则。我们对 IDEA 框架的评估涉及五个代表性的 LLM，结果表明其性能明显优于基线。此外，在这个框架内，我们与 50 名人类参与者进行的比较揭示了规则学习行为的显著差异。LLM 智能体往往会生成合理的初始假设，但难以通过交互来改进它们。相反，人类尽管有时会忽略初始细节，但在整合反馈和不断改进他们的假设方面表现出色。我们相信我们的基准 RULEARN 将成为一个有价值且具有挑战性的资源，而 IDEA 框架将为开发能够在现实场景中进行类似人类规则学习的 LLM 智能体提供重要的见解。我们将在论文被接受后发布我们的代码和数据。