摘要
arXiv:2502.05932v1 Announce Type: cross
摘要:人类擅长利用先前的知识来应对新的挑战并在解决问题时发展技能。这种范式在自主代理的发展中越来越受欢迎,因为它能够使系统在面对如人类一样的新挑战时自我进化。然而,以往的方法在扩展新技能时训练效率有限,并且未能充分利用先前的知识来促进新任务的学习。在本文中,我们提出了一种新的框架——参数化技能扩展与组合(PSEC),该框架旨在通过维护一个可管理的技能库来逐步演化代理的能力,并高效地应对新的挑战。该库可以通过参数高效的微调,以插入式方法整合技能原语作为低秩适应(LoRA)模块,从而促进高效的、灵活的技能扩展。这种结构还允许通过合并编码不同技能的LoRA模块在参数空间中直接组合技能,利用技能间的共享信息来有效编程新的技能。基于此,我们提出了一种上下文感知模块,可以动态激活不同的技能以协作处理新任务。PSEC能够帮助各种应用,包括多目标组合、动态转移和持续策略转移,在D4RL、DSRL基准测试和DeepMind控制套件上的结果显示,PSEC表现出色,能够有效利用先前的知识来高效应对新挑战,并扩展技能库以提升能力。项目网站:https://ltlhuuu.github.io/PSEC/。