LLM2D
VisEscape:一个用于评估虚拟逃脱房间中探索驱动决策能力的基准测试
VisEscape: A Benchmark for Evaluating Exploration-driven Decision-making in Virtual Escape Rooms
作者: Seungwon Lim, Sungwoong Kim, Jihwan Yu, Sungjae Lee, Jiwan Chung, Youngjae Yu
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.14427v2

摘要

arXiv:2503.14427v2 公告类型:替换 摘要:逃脱房间提供了一种独特的认知挑战,需要探索驱动的规划:玩家应该积极搜索其环境,根据新发现不断更新知识,并将不相关的线索连接起来,以确定哪些元素与他们的目标相关。受这一想法的启发,我们引入了VisEscape,这是一个包含20个虚拟逃脱房间的基准,专门设计用于在这些具有挑战性的条件下评估AI模型,其中成功不仅取决于解决孤立谜题,还取决于迭代构建和细化动态变化环境的空间-时间知识。在VisEscape上,我们观察到即使是最先进的多模态模型通常也无法逃脱房间,它们在进度和轨迹上的表现差异很大。为了解决这一问题,我们提出了VisEscaper,该模型有效地整合了记忆、反馈和ReAct模块,在平均效率上比基线智能体提高了3.7倍,且在效率上提高了4.9倍。