LLM2D

摘要

arXiv:2502.11896v1 Announce Type: cross 摘要：在连续动作空间中使用强化学习（RL）面临着持续的挑战，例如探索效率低下和收敛于次优解。为解决这些限制，我们提出了CAMEL，这是一个新颖的框架，将LLM生成的次优策略集成到RL训练管道中。CAMEL利用动态动作掩码和自适应ε-掩码机制，在早期训练阶段指导探索，同时逐步使智能体能够独立优化策略。CAMEL的核心在于将基于环境描述和任务目标由LLM生成的可执行Python子优化策略的集成。尽管这些策略简单且硬编码，但它们为RL智能体提供了宝贵的初始指导。为了有效利用这些先验知识，CAMEL使用掩码感知优化来动态限制基于LLM输出的动作空间。此外，ε-掩码机制逐步减少对LLM生成指导的依赖，使智能体能够从受约束的探索过渡到自主策略优化。实验验证显示，CAMEL在Gymnasium MuJoCo环境中是有效的。在Hopper-v4和Ant-v4中，LLM生成的策略显著提高了样本效率，性能达到或超过了专家掩码基线。对于Walker2d-v4，由于LLM难以准确建模双足运动动力学，CAMEL保持了稳健的RL性能，没有明显的退化，突显了该框架在不同任务上的适应性。虽然CAMEL在提高样本效率和缓解收敛挑战方面表现出色，但这些问题仍需进一步研究。未来的工作旨在将CAMEL推广到多模态LLM，以更广泛的观察-动作空间，并自动化策略评估，减少人类干预，增强RL训练管道的可扩展性。