摘要
arXiv:2502.01600v2 宣读类型: 强交叉领域
摘要:交互式数字代理(IDAs)利用状态型数字环境的API来响应用户请求执行任务。尽管由指令调校的大语言模型(LLMs)驱动的IDAs可以在多步骤交换中对界面调用的反馈作出响应,但它们并未在各自的数字环境中进行训练。此前的方法在如AppWorld等复杂的基准测试中仅能完成不到一半的任务。我们提出了一种强化学习(RL)方法,直接在目标环境中训练IDAs。我们将这一训练形式化为部分可观测马尔可夫决策过程,并推导出一种名为LOOP的数据和内存高效的阻塞性策略优化变体。LOOP不使用价值网络,并且在内存中保持底层LLM的一个副本,使其实施简便,并且与单一LLM微调一样节省内存。在AppWorld环境中使用LOOP训练的一个320亿参数的代理,在多项任务性能上超过了OpenAI的更大规模o1代理,高出9个百分点(相对增长15%)。据我们所知,这是我们首次报道将RL应用于通过直接API调用与状态型多领域多应用环境交互的IDAs的研究。我们的分析揭示了在这一领域RL的有效性,表明代理学会了查阅API文档、避免不必要的假设、最小化编造行为,并从挫折中恢复。