LLM2D

摘要

arXiv:2502.05932v1 Announce Type: cross 摘要：人类擅长利用先前的知识来应对新的挑战并在解决问题时发展技能。这种范式在自主代理的发展中越来越受欢迎，因为它能够使系统在面对如人类一样的新挑战时自我进化。然而，以往的方法在扩展新技能时训练效率有限，并且未能充分利用先前的知识来促进新任务的学习。在本文中，我们提出了一种新的框架——参数化技能扩展与组合（PSEC），该框架旨在通过维护一个可管理的技能库来逐步演化代理的能力，并高效地应对新的挑战。该库可以通过参数高效的微调，以插入式方法整合技能原语作为低秩适应（LoRA）模块，从而促进高效的、灵活的技能扩展。这种结构还允许通过合并编码不同技能的LoRA模块在参数空间中直接组合技能，利用技能间的共享信息来有效编程新的技能。基于此，我们提出了一种上下文感知模块，可以动态激活不同的技能以协作处理新任务。PSEC能够帮助各种应用，包括多目标组合、动态转移和持续策略转移，在D4RL、DSRL基准测试和DeepMind控制套件上的结果显示，PSEC表现出色，能够有效利用先前的知识来高效应对新挑战，并扩展技能库以提升能力。项目网站：https://ltlhuuu.github.io/PSEC/。