LLM2D

摘要

arXiv:2504.01382v1 宣告类型: 新摘要: 随着数字化和云计算技术的发展，网络在现代社会中的重要性日益增加。基于大型语言模型的自主网络代理具有在自动化工作方面巨大的潜力。因此，准确地衡量和监控其能力的进展非常重要。在本文中，我们进行了全面而严谨的网络代理现状评估。我们的结果显示了当前代理能力极具不同的图景，表明之前报告的结果存在过分乐观的情况。这一差异可以归因于现有基准中的不足。我们提出了一个名为Online-Mind2Web的在线评估基准，包含300个多样且现实的任务，覆盖136个网站。它使我们能够在一个接近实际用户使用这些代理的环境中评估网络代理。为了促进更可扩展的评估和开发，我们还开发了一种新颖的由LLM作为法官的自动评估方法，并表明它可以达到约85%的人工判断一致性，远高于现有方法。最后，我们进行了迄今为止对当前网络代理的第一个全面比较分析，突出了它们的优点和局限性，以激发未来的研究。