LLM2D
Explorer:面向多模态Web代理的探索驱动网页轨迹合成规模化方法
Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents
作者: Vardaan Pahuja, Yadong Lu, Corby Rosset, Boyu Gou, Arindam Mitra, Spencer Whitehead, Yu Su, Ahmed Awadallah
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11357v1

摘要

arXiv:2502.11357v1 通报类型: 新 摘要: 近期在大型多模态模型(LMMs)方面的成功激发了自主完成复杂网络任务代理的 promising 应用。虽然开源 LMM 代理在离线评估基准上取得了显著进步,但在更现实的在线环境中,其性能仍远低于人类水平。一个关键瓶颈是缺乏跨各个领域的多样性和大规模轨迹级数据集,这些数据集的收集成本高昂。在本文中,我们通过开发可扩展的配方来应对这一挑战,以合成迄今为止规模最大、最多样化的轨迹级数据集,包含超过 94,000 条成功的多模态网络轨迹,涵盖 49,000 个唯一 URL、720,000 张截图以及 3300 万网络元素。特别地,我们利用广泛的网络探索与细化来获取多样化的任务意图。平均每条成功轨迹的成本为 28 美分,使其对研究社区中的各种用户来说都是可负担的。利用该数据集,我们训练了一个多模态网络代理 Explorer,并在 Mind2Web-Live、Multimodal-Mind2Web 和 MiniWob++ 等离线和在线网络代理基准测试中展示了优异的表现。此外,我们的实验突出了数据规模是提高网络代理能力的关键驱动力。我们希望这项研究能够让基于 LMM 的代理研究在更大规模上更具可访问性。