LLM2D
REAL:在确定性模拟真实网站上的自主代理基准测试
REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites
作者: Divyansh Garg, Shaun VanWeelden, Diego Caples, Andis Draguns, Nikil Ravi, Pranav Putta, Naman Garg, Tomas Abraham, Michael Lara, Federico Lopez, James Liu, Atharva Gundawar, Prannay Hebbar, Youngchul Joo, Jindong Gu, Charles London, Christian Schroeder de Witt, Sumeet Motwani
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.11543v2

摘要

arXiv:2504.11543v2 Announce Type: replace 摘要:我们介绍了REAL,这是一个基准和框架,用于在真实世界网站的确定性模拟中进行多轮代理评估。REAL包括了电子商务、旅行、通讯和专业社交等领域广泛使用的11个网站的高保真、确定性复制品。我们还发布了一个基准,包含112项实用任务,这些任务与日常复杂的用户交互相似,要求准确的信息检索和状态改变的操作。所有交互都发生在完全受控的环境中,消除了安全风险,使代理能力和可靠性评估更加稳健和可重复。我们新的评估框架将基于程序检查的网站状态检查与基于LLM的评分表指导判断相结合,适用于基于任务的操作型任务。该框架支持开源和专有代理系统,通过灵活的评估套件,允许研究实验室在不进行修改的情况下测试代理系统。我们的实验结果表明,最前沿的语言模型在REAL上的成功率最多为41%,突显了自主网页导航和任务完成能力中的关键差距。该框架支持新任务的轻松集成、可重复评估以及可扩展的后训练数据生成,标志着在评估和提升代理能力方面迈出了重要一步。