LLM2D

摘要

arXiv:2502.11357v2 宣布类型：替换摘要：大型多模态模型（LMM）的近期成功激发了自主完成复杂网络任务的智能体的应用前景。尽管开源的LMM智能体在离线评估基准上取得了显著进展，但在更具现实性的在线环境中，它们的表现仍然与人类水平存在较大差距。关键的瓶颈在于缺乏跨多个领域多样且大规模的轨迹级数据集，这些数据集的收集成本高昂。在这篇论文中，我们通过开发一种可扩展的方法，合成了迄今为止规模最大、多样性最高的轨迹级数据集，包含超过94,000个成功的多模态网络轨迹，覆盖49,000个独特的URL，320万张屏幕截图以及3300万网页元素。特别是，我们利用广泛的网络探索和细化来获取多样化的任务意图。平均每成功轨迹的成本为28美分，使其对社区中的广泛用户来说是负担得起的。利用此数据集，我们训练了Explorer，一个多模态网络代理，并在Mind2Web-Live、Multimodal-Mind2Web和MiniWob++等离线和在线网络代理基准测试中展示了强大的性能。此外，我们的实验突显了数据规模是提高网络代理能力的关键驱动力。我们希望这项研究能够使更大规模的基于LMM的代理研究更具可访问性。