LLM2D

摘要

arXiv:2502.10550v1 通知类型: 交叉摘要：记忆对于使智能体能够处理具有时间依赖性和空间依赖性的复杂任务至关重要。虽然许多强化学习（RL）算法都包含了记忆组件，但领域中缺少一个通用的标准基准，用于评估智能体的记忆能力跨越多种场景。在桌面机器人操作中，这个差距尤为明显，记忆对于解决部分可观测任务和确保稳健性能至关重要，但目前还没有标准化的基准。为了解决这一问题，我们引入了MIKASA（Memory-Intensive Skills Assessment Suite for Agents），这是一个全面的内存增强RL基准，包含三个关键贡献：（1）我们提出了一种全面的分类框架，用于定义内存密集型RL任务；（2）我们收集了MIKASA-Base - 一个统一的基准，能够系统地评价增强记忆的智能体在各种场景中的表现；（3）我们开发了MIKASA-Robo - 一个包含32个精心设计的内存密集型任务的基准，用于评估桌面机器人操作中智能体的记忆能力。我们的贡献建立了一个统一的框架，推动了内存增强RL研究的发展，促进了更可靠的系统在实际应用中的发展。相关代码可在https://sites.google.com/view/memorybenchrobots/获得。