摘要
arXiv:2502.11896v1 Announce Type: cross
摘要:在连续动作空间中使用强化学习(RL)面临着持续的挑战,例如探索效率低下和收敛于次优解。为解决这些限制,我们提出了CAMEL,这是一个新颖的框架,将LLM生成的次优策略集成到RL训练管道中。CAMEL利用动态动作掩码和自适应ε-掩码机制,在早期训练阶段指导探索,同时逐步使智能体能够独立优化策略。CAMEL的核心在于将基于环境描述和任务目标由LLM生成的可执行Python子优化策略的集成。尽管这些策略简单且硬编码,但它们为RL智能体提供了宝贵的初始指导。为了有效利用这些先验知识,CAMEL使用掩码感知优化来动态限制基于LLM输出的动作空间。此外,ε-掩码机制逐步减少对LLM生成指导的依赖,使智能体能够从受约束的探索过渡到自主策略优化。实验验证显示,CAMEL在Gymnasium MuJoCo环境中是有效的。在Hopper-v4和Ant-v4中,LLM生成的策略显著提高了样本效率,性能达到或超过了专家掩码基线。对于Walker2d-v4,由于LLM难以准确建模双足运动动力学,CAMEL保持了稳健的RL性能,没有明显的退化,突显了该框架在不同任务上的适应性。虽然CAMEL在提高样本效率和缓解收敛挑战方面表现出色,但这些问题仍需进一步研究。未来的工作旨在将CAMEL推广到多模态LLM,以更广泛的观察-动作空间,并自动化策略评估,减少人类干预,增强RL训练管道的可扩展性。