摘要
arXiv:2502.01600v2 交互数字代理类型:替换交叉
摘要:交互数字代理(IDAs)利用有状态数字环境的API来响应用户请求执行任务。尽管由指令调整的大语言模型(LLMs)驱动的IDAs可以在多步交互中对界面调用的反馈作出反应,但它们并没有在其相应的数字环境中进行训练。先前的方法在AppWorld等复杂基准测试中只能完成不到一半的任务。我们提出了一种强化学习(RL)方法,直接在目标环境中训练IDAs。我们将这种训练形式化为部分可观测马尔可夫决策过程,并推导出一种数据和内存高效的优化策略 proximal policy optimization 的变体 LOOP。LOOP 不使用价值网络,并且在内存中只维护一个底层 LLM 的副本,使其实现简单,并且内存效率与对单个 LLM 进行微调相当。借助 LOOP 在 AppWorld 环境中训练的 320 亿参数代理,超越了 OpenAI 更大的 o1 代理 9 个百分点(相对 15%)。据我们所知,这是首次将 RL 应用于通过直接 API 调用与有状态、多领域、多应用环境交互的 IDAs 的应用。我们的分析揭示了在这种领域中 RL 的有效性,展示了该代理学会查阅 API 文档、避免不必要的假设、减少虚构推理、并从挫折中恢复。