摘要
arXiv:2504.20073v1 公告类型: cross
摘要: 将大规模语言模型(LLMs)训练为交互代理带来了独特的挑战,包括长期决策制定以及与随机环境反馈的交互。虽然强化学习(RL)在静态任务中取得了进展,但多轮代理RL训练仍处于探索阶段。我们提出了一种面向轨迹级别的代理RL通用框架StarPO(State-Thinking-Actions-Reward Policy Optimization),并介绍了一种模块化系统RAGEN,用于训练和评估LLM代理。我们的研究在三个简化环境中揭示了三个核心发现。首先,我们的代理RL培训显示出回声陷阱的现象,其中奖励方差悬崖和梯度尖峰;我们通过引入StarPO-S,一种包含轨迹过滤、批评家整合和解耦裁剪的稳定变体来解决这一问题。其次,我们发现,强化学习轨迹的塑形将受益于多样化的初始状态、中等交互粒度和更频繁的采样。第三,我们展示了,在缺乏细粒度、基于推理的奖励信号的情况下,通过多轮RL几乎不会出现代理推理,它们可能会展示出浅显的战略或错觉。代码和环境可在 https://github.com/RAGEN-AI/RAGEN 获取。