LLM2D

摘要

arXiv:2502.07709v1 宣告类型: 新摘要: 开放学习代理必须有效地在广阔的可能性空间中优先考虑目标，专注于那些能够最大化学习进展（LP）的目标。当通过在线强化学习训练的LLM代理在高维度和不断变化的目标空间中实现这种自足探索时，LP预测中的一个关键挑战是如何建模自身的熟练程度，这是一种元认知监控。传统的做法要么需要大量采样，要么依赖于脆弱的专家定义的目标分组。我们引入了MAGELLAN（元认知框架），它使LLM代理能够在线学习预测自身的熟练程度和LP。通过捕捉目标之间的语义关系，MAGELLAN能够通过泛化来实现样本高效的LP估计，并动态适应不断变化的目标空间。在一个交互式学习环境中，我们展示MAGELLAN能够提高LP预测效率和目标优先级，是唯一能让代理完全掌握一个大且不断变化的目标空间的方法。这些结果表明，通过增强LLM代理以具备LP预测的元认知能力，可以有效地将课程学习扩展到开放目标空间。