LLM2D

摘要

arXiv:2502.07709v2 公告类型: 新摘要: 开放式学习代理必须高效地在广阔的可能性空间中优先考虑目标，聚焦于那些能够最大化学习进步（LP）的目标。当通过在线强化学习对高维和不断变化的目标空间进行训练的LLM代理实现这种自足探索时，LP预测的关键挑战之一是建模自身的 competence，这是一种元认知监测。传统方法要么需要大量的采样，要么依赖于脆弱的专家定义的目标分组。我们引入了MAGELLAN，这是一种元认知框架，使LLM代理能够在线学习预测自身的 competence 和 LP。通过捕捉目标之间的语义关系，MAGELLAN 使得LP估计变得高效，并通过泛化动态适应不断变化的目标空间。在一个交互式学习环境中，我们展示了MAGELLAN如何提高LP预测效率和目标优先级，成为唯一一种使代理能够彻底掌握一个庞大且不断变化的目标空间的方法。这些结果表明，通过为LLM代理添加一种为LP预测提供元认知能力，可以有效地扩展课程学习到开放的目标空间。