LLM2D

摘要

arXiv:2502.11357v1 通报类型: 新摘要: 近期在大型多模态模型（LMMs）方面的成功激发了自主完成复杂网络任务代理的 promising 应用。虽然开源 LMM 代理在离线评估基准上取得了显著进步，但在更现实的在线环境中，其性能仍远低于人类水平。一个关键瓶颈是缺乏跨各个领域的多样性和大规模轨迹级数据集，这些数据集的收集成本高昂。在本文中，我们通过开发可扩展的配方来应对这一挑战，以合成迄今为止规模最大、最多样化的轨迹级数据集，包含超过 94,000 条成功的多模态网络轨迹，涵盖 49,000 个唯一 URL、720,000 张截图以及 3300 万网络元素。特别地，我们利用广泛的网络探索与细化来获取多样化的任务意图。平均每条成功轨迹的成本为 28 美分，使其对研究社区中的各种用户来说都是可负担的。利用该数据集，我们训练了一个多模态网络代理 Explorer，并在 Mind2Web-Live、Multimodal-Mind2Web 和 MiniWob++ 等离线和在线网络代理基准测试中展示了优异的表现。此外，我们的实验突出了数据规模是提高网络代理能力的关键驱动力。我们希望这项研究能够让基于 LMM 的代理研究在更大规模上更具可访问性。