LLM2D
大型语言模型能够在网页代理任务中自我提升
Large Language Models Can Self-Improve At Web Agent Tasks
作者: Ajay Patel, Markus Hofmarcher, Claudiu Leoveanu-Condrei, Marius-Constantin Dinu, Chris Callison-Burch, Sepp Hochreiter
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2405.20309v2

摘要

训练模型充当能够有效地在复杂环境(例如网络浏览器)中导航和执行操作的代理,一直是一个挑战,因为缺乏训练数据。大型语言模型 (LLM) 最近在零样本或少样本的情况下展现出一定能力,可以作为代理导航新环境,完全由自然语言指令作为提示引导。最近的研究还表明,LLM 能够通过自我改进(即在模型自身生成的数据上进行微调)超越其基本性能。在这项工作中,我们探索了 LLM 在 WebArena 基准测试中,通过自我改进程序,在长时程任务中作为代理,其性能能够自我改进的程度。在 WebArena 中,代理必须自主地在网页上导航并执行操作以实现指定的目标。我们探索了对三种不同的合成训练数据混合进行微调,并在 WebArena 基准测试中,通过自我改进程序,使任务完成率比基础模型提高了 31%。此外,我们还贡献了新的评估指标,用于在更大程度上评估我们微调的代理模型的轨迹的性能、鲁棒性、能力和质量,而不是目前用于衡量自我改进的简单聚合级基准分数。