LLM2D

摘要

训练模型充当能够有效地在复杂环境（例如网络浏览器）中导航和执行操作的代理，一直是一个挑战，因为缺乏训练数据。大型语言模型 (LLM) 最近在零样本或少样本的情况下展现出一定能力，可以作为代理导航新环境，完全由自然语言指令作为提示引导。最近的研究还表明，LLM 能够通过自我改进（即在模型自身生成的数据上进行微调）超越其基本性能。在这项工作中，我们探索了 LLM 在 WebArena 基准测试中，通过自我改进程序，在长时程任务中作为代理，其性能能够自我改进的程度。在 WebArena 中，代理必须自主地在网页上导航并执行操作以实现指定的目标。我们探索了对三种不同的合成训练数据混合进行微调，并在 WebArena 基准测试中，通过自我改进程序，使任务完成率比基础模型提高了 31%。此外，我们还贡献了新的评估指标，用于在更大程度上评估我们微调的代理模型的轨迹的性能、鲁棒性、能力和质量，而不是目前用于衡量自我改进的简单聚合级基准分数。