LLM2D

摘要

arXiv:2502.01600v1 类型: cross 摘要：交互式数字代理（IDAs）利用状态性数字环境的API来响应用户请求执行任务。虽然由指令调优的大语言模型（LLMs）驱动的IDAs可以在多步交互中对界面调用的反馈做出反应，但它们并没有在其各自数字环境中接受训练。此前的方法在AppWorld等复杂基准测试中完成的任务不到一半。我们提出了一种强化学习（RL）方法，直接在目标环境中训练IDAs。我们将这种训练形式化为部分可观测马尔可夫决策过程，并推导出M-PPO，这是一种基于近端策略优化的数据和内存效率优化变体。M-PPO 不使用价值网络，并且在内存中只维护一个底层LLM的精确副本，使其实现简洁，并且内存效率与微调单个LLM相当。在用M-PPO在AppWorld环境中训练一个包含320亿参数的代理，在AppWorld环境中表现出色，超越了OpenAI的o1代理9个百分点（相当于相对提高了15%）。据我们所知，这是首次报告使用RL来训练通过直接API调用与状态性、多域、多应用环境交互的IDAs。我们的分析揭示了在这一领域使用RL的有效性，显示代理学会了查阅API文档、避免不必要的假设、减少虚构行为，并从挫折中恢复过来。