摘要
arXiv:2502.07709v1 宣告类型: 新
摘要: 开放学习代理必须有效地在广阔的可能性空间中优先考虑目标,专注于那些能够最大化学习进展(LP)的目标。当通过在线强化学习训练的LLM代理在高维度和不断变化的目标空间中实现这种自足探索时,LP预测中的一个关键挑战是如何建模自身的熟练程度,这是一种元认知监控。传统的做法要么需要大量采样,要么依赖于脆弱的专家定义的目标分组。我们引入了MAGELLAN(元认知框架),它使LLM代理能够在线学习预测自身的熟练程度和LP。通过捕捉目标之间的语义关系,MAGELLAN能够通过泛化来实现样本高效的LP估计,并动态适应不断变化的目标空间。在一个交互式学习环境中,我们展示MAGELLAN能够提高LP预测效率和目标优先级,是唯一能让代理完全掌握一个大且不断变化的目标空间的方法。这些结果表明,通过增强LLM代理以具备LP预测的元认知能力,可以有效地将课程学习扩展到开放目标空间。