摘要
在海量语料库上训练的大型语言模型(LLM)在知识密集型任务中取得了显著成功。然而,大多数模型依赖于预先存储的知识。从特定环境中推导出新的通用知识并利用所获得的知识进行推理——即“情境归纳推理”,对于机器智能至关重要且极具挑战性。本文设计了 Mars,一个用于情境归纳推理的交互式环境。它通过修改地形、生存环境和任务依赖关系,在遵循某些原则的同时引入了反常识游戏机制。在 Mars 中,智能体需要积极地与其周围环境互动,推导出有用的规则并在特定情况下执行决策任务。我们在各种基于强化学习和基于 LLMs 的方法上进行了实验,发现它们都在这个具有挑战性的情境归纳推理基准测试中表现挣扎。此外,我们探索了“从反思中归纳”,即我们指导智能体从历史轨迹中进行归纳推理。其优越的性能突出了归纳推理在 Mars 中的重要性。通过 Mars,我们旨在推动情境归纳推理的进步,并为开发下一代能够以自适应和上下文敏感的方式进行推理的 AI 系统奠定基础。