摘要
大型语言模型 (LLM) 代理正在迅速改进,以处理日益复杂的基于 Web 的任务。大多数这些代理依赖于通用、专有的模型,如 GPT-4,并专注于设计更好的提示以提高其规划能力。然而,通用 LLM 并没有专门针对理解诸如 HTML 等专业 Web 上下文进行训练,并且它们常常难以进行长期规划。我们探索了一种替代方法,该方法使用从超过 250 个领域收集的、对应于 60 亿个标记的生产规模工作流数据来微调开源 LLM。这种简单而有效的方法在现有基准测试中显示出比基于提示的代理显著的优势——ScribeAgent 在 Mind2Web 上实现了最先进的直接生成性能,并且在 WebArena 上比之前的最佳纯文本 Web 代理将任务成功率提高了 14.1%。我们进一步对各种微调设计选择进行了详细的消融研究,并提供了对 LLM 选择、训练方法、上下文窗口优化以及数据集大小的影响的见解。