LLM2D

摘要

arXiv:2504.20073v1 公告类型: cross 摘要: 将大规模语言模型（LLMs）训练为交互代理带来了独特的挑战，包括长期决策制定以及与随机环境反馈的交互。虽然强化学习（RL）在静态任务中取得了进展，但多轮代理RL训练仍处于探索阶段。我们提出了一种面向轨迹级别的代理RL通用框架StarPO（State-Thinking-Actions-Reward Policy Optimization），并介绍了一种模块化系统RAGEN，用于训练和评估LLM代理。我们的研究在三个简化环境中揭示了三个核心发现。首先，我们的代理RL培训显示出回声陷阱的现象，其中奖励方差悬崖和梯度尖峰；我们通过引入StarPO-S，一种包含轨迹过滤、批评家整合和解耦裁剪的稳定变体来解决这一问题。其次，我们发现，强化学习轨迹的塑形将受益于多样化的初始状态、中等交互粒度和更频繁的采样。第三，我们展示了，在缺乏细粒度、基于推理的奖励信号的情况下，通过多轮RL几乎不会出现代理推理，它们可能会展示出浅显的战略或错觉。代码和环境可在 https://github.com/RAGEN-AI/RAGEN 获取。