LLM2D

摘要

在海量语料库上训练的大型语言模型（LLM）在知识密集型任务中取得了显著成功。然而，大多数模型依赖于预先存储的知识。从特定环境中推导出新的通用知识并利用所获得的知识进行推理——即“情境归纳推理”，对于机器智能至关重要且极具挑战性。本文设计了 Mars，一个用于情境归纳推理的交互式环境。它通过修改地形、生存环境和任务依赖关系，在遵循某些原则的同时引入了反常识游戏机制。在 Mars 中，智能体需要积极地与其周围环境互动，推导出有用的规则并在特定情况下执行决策任务。我们在各种基于强化学习和基于 LLMs 的方法上进行了实验，发现它们都在这个具有挑战性的情境归纳推理基准测试中表现挣扎。此外，我们探索了“从反思中归纳”，即我们指导智能体从历史轨迹中进行归纳推理。其优越的性能突出了归纳推理在 Mars 中的重要性。通过 Mars，我们旨在推动情境归纳推理的进步，并为开发下一代能够以自适应和上下文敏感的方式进行推理的 AI 系统奠定基础。