LLM2D

摘要

arXiv:2502.01600v2 宣读类型: 强交叉领域摘要：交互式数字代理（IDAs）利用状态型数字环境的API来响应用户请求执行任务。尽管由指令调校的大语言模型（LLMs）驱动的IDAs可以在多步骤交换中对界面调用的反馈作出响应，但它们并未在各自的数字环境中进行训练。此前的方法在如AppWorld等复杂的基准测试中仅能完成不到一半的任务。我们提出了一种强化学习（RL）方法，直接在目标环境中训练IDAs。我们将这一训练形式化为部分可观测马尔可夫决策过程，并推导出一种名为LOOP的数据和内存高效的阻塞性策略优化变体。LOOP不使用价值网络，并且在内存中保持底层LLM的一个副本，使其实施简便，并且与单一LLM微调一样节省内存。在AppWorld环境中使用LOOP训练的一个320亿参数的代理，在多项任务性能上超过了OpenAI的更大规模o1代理，高出9个百分点（相对增长15%）。据我们所知，这是我们首次报道将RL应用于通过直接API调用与状态型多领域多应用环境交互的IDAs的研究。我们的分析揭示了在这一领域RL的有效性，表明代理学会了查阅API文档、避免不必要的假设、最小化编造行为，并从挫折中恢复。