LLM2D
Explorer:扩展探索驱动的网页轨迹合成以支持多模态网页代理
Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents
作者: Vardaan Pahuja, Yadong Lu, Corby Rosset, Boyu Gou, Arindam Mitra, Spencer Whitehead, Yu Su, Ahmed Awadallah
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.11357v2

摘要

arXiv:2502.11357v2 宣布类型:替换 摘要:大型多模态模型(LMM)的近期成功激发了自主完成复杂网络任务的智能体的应用前景。尽管开源的LMM智能体在离线评估基准上取得了显著进展,但在更具现实性的在线环境中,它们的表现仍然与人类水平存在较大差距。关键的瓶颈在于缺乏跨多个领域多样且大规模的轨迹级数据集,这些数据集的收集成本高昂。在这篇论文中,我们通过开发一种可扩展的方法,合成了迄今为止规模最大、多样性最高的轨迹级数据集,包含超过94,000个成功的多模态网络轨迹,覆盖49,000个独特的URL,320万张屏幕截图以及3300万网页元素。特别是,我们利用广泛的网络探索和细化来获取多样化的任务意图。平均每成功轨迹的成本为28美分,使其对社区中的广泛用户来说是负担得起的。利用此数据集,我们训练了Explorer,一个多模态网络代理,并在Mind2Web-Live、Multimodal-Mind2Web和MiniWob++等离线和在线网络代理基准测试中展示了强大的性能。此外,我们的实验突显了数据规模是提高网络代理能力的关键驱动力。我们希望这项研究能够使更大规模的基于LMM的代理研究更具可访问性。