LLM2D

摘要

arXiv:2504.01382v2 宣告类型: 替代摘要：随着数字技术和云技术的发展，互联网在现代社会中的重要性日益凸显。基于大规模语言模型（LLM）的自主网络代理具有在工作自动化方面巨大潜力。因此，准确测量和监控其能力的发展变得至关重要。在本文中，我们进行了一项全面而严谨的网络代理现状评估。我们的结果描绘了一幅与当前代理能力之前报道的结果截然不同的图景，表明了之前报告结果中的过度乐观。这一差距可以归因于现有基准中的不足。我们引入了Online-Mind2Web，这是一个在线评估基准，包括300个多样且真实的任务，覆盖136个网站。它使我们能够在接近真实用户使用这些代理的方式下评估网络代理。为了促进更具扩展性的评估和开发，我们还开发了一种新的LLM作为评委的自动评估方法，并展示了这种方法与人类判断的一致性约为85%，远高于现有方法。最后，我们呈现了当前网络代理的第一个全面比较分析，强调了它们的优点和局限性，以启发未来的研究。