LLM2D

摘要

arXiv:2503.14427v2 公告类型：替换摘要：逃脱房间提供了一种独特的认知挑战，需要探索驱动的规划：玩家应该积极搜索其环境，根据新发现不断更新知识，并将不相关的线索连接起来，以确定哪些元素与他们的目标相关。受这一想法的启发，我们引入了VisEscape，这是一个包含20个虚拟逃脱房间的基准，专门设计用于在这些具有挑战性的条件下评估AI模型，其中成功不仅取决于解决孤立谜题，还取决于迭代构建和细化动态变化环境的空间-时间知识。在VisEscape上，我们观察到即使是最先进的多模态模型通常也无法逃脱房间，它们在进度和轨迹上的表现差异很大。为了解决这一问题，我们提出了VisEscaper，该模型有效地整合了记忆、反馈和ReAct模块，在平均效率上比基线智能体提高了3.7倍，且在效率上提高了4.9倍。