摘要
arXiv:2502.01600v1 类型: cross
摘要:交互式数字代理(IDAs)利用状态性数字环境的API来响应用户请求执行任务。虽然由指令调优的大语言模型(LLMs)驱动的IDAs可以在多步交互中对界面调用的反馈做出反应,但它们并没有在其各自数字环境中接受训练。此前的方法在AppWorld等复杂基准测试中完成的任务不到一半。我们提出了一种强化学习(RL)方法,直接在目标环境中训练IDAs。我们将这种训练形式化为部分可观测马尔可夫决策过程,并推导出M-PPO,这是一种基于近端策略优化的数据和内存效率优化变体。M-PPO 不使用价值网络,并且在内存中只维护一个底层LLM的精确副本,使其实现简洁,并且内存效率与微调单个LLM相当。在用M-PPO在AppWorld环境中训练一个包含320亿参数的代理,在AppWorld环境中表现出色,超越了OpenAI的o1代理9个百分点(相当于相对提高了15%)。据我们所知,这是首次报告使用RL来训练通过直接API调用与状态性、多域、多应用环境交互的IDAs。我们的分析揭示了在这一领域使用RL的有效性,显示代理学会了查阅API文档、避免不必要的假设、减少虚构行为,并从挫折中恢复过来。