LLM2D
RAGEN:通过多轮强化学习理解LLM代理的自我进化
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning
作者: Zihan Wang, Kangrui Wang, Qineng Wang, Pingyue Zhang, Linjie Li, Zhengyuan Yang, Kefan Yu, Minh Nhat Nguyen, Licheng Liu, Eli Gottlieb, Monica Lam, Yiping Lu, Kyunghyun Cho, Jiajun Wu, Li Fei-Fei, Lijuan Wang, Yejin Choi, Manling Li
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2504.20073v1

摘要

arXiv:2504.20073v1 公告类型: cross 摘要: 将大规模语言模型(LLMs)训练为交互代理带来了独特的挑战,包括长期决策制定以及与随机环境反馈的交互。虽然强化学习(RL)在静态任务中取得了进展,但多轮代理RL训练仍处于探索阶段。我们提出了一种面向轨迹级别的代理RL通用框架StarPO(State-Thinking-Actions-Reward Policy Optimization),并介绍了一种模块化系统RAGEN,用于训练和评估LLM代理。我们的研究在三个简化环境中揭示了三个核心发现。首先,我们的代理RL培训显示出回声陷阱的现象,其中奖励方差悬崖和梯度尖峰;我们通过引入StarPO-S,一种包含轨迹过滤、批评家整合和解耦裁剪的稳定变体来解决这一问题。其次,我们发现,强化学习轨迹的塑形将受益于多样化的初始状态、中等交互粒度和更频繁的采样。第三,我们展示了,在缺乏细粒度、基于推理的奖励信号的情况下,通过多轮RL几乎不会出现代理推理,它们可能会展示出浅显的战略或错觉。代码和环境可在 https://github.com/RAGEN-AI/RAGEN 获取。