LLM2D

摘要

arXiv:2502.01600v2 交互数字代理类型：替换交叉摘要：交互数字代理（IDAs）利用有状态数字环境的API来响应用户请求执行任务。尽管由指令调整的大语言模型（LLMs）驱动的IDAs可以在多步交互中对界面调用的反馈作出反应，但它们并没有在其相应的数字环境中进行训练。先前的方法在AppWorld等复杂基准测试中只能完成不到一半的任务。我们提出了一种强化学习（RL）方法，直接在目标环境中训练IDAs。我们将这种训练形式化为部分可观测马尔可夫决策过程，并推导出一种数据和内存高效的优化策略 proximal policy optimization 的变体 LOOP。LOOP 不使用价值网络，并且在内存中只维护一个底层 LLM 的副本，使其实现简单，并且内存效率与对单个 LLM 进行微调相当。借助 LOOP 在 AppWorld 环境中训练的 320 亿参数代理，超越了 OpenAI 更大的 o1 代理 9 个百分点（相对 15%）。据我们所知，这是首次将 RL 应用于通过直接 API 调用与有状态、多领域、多应用环境交互的 IDAs 的应用。我们的分析揭示了在这种领域中 RL 的有效性，展示了该代理学会查阅 API 文档、避免不必要的假设、减少虚构推理、并从挫折中恢复。