摘要
arXiv:2504.11543v2 Announce Type: replace
摘要:我们介绍了REAL,这是一个基准和框架,用于在真实世界网站的确定性模拟中进行多轮代理评估。REAL包括了电子商务、旅行、通讯和专业社交等领域广泛使用的11个网站的高保真、确定性复制品。我们还发布了一个基准,包含112项实用任务,这些任务与日常复杂的用户交互相似,要求准确的信息检索和状态改变的操作。所有交互都发生在完全受控的环境中,消除了安全风险,使代理能力和可靠性评估更加稳健和可重复。我们新的评估框架将基于程序检查的网站状态检查与基于LLM的评分表指导判断相结合,适用于基于任务的操作型任务。该框架支持开源和专有代理系统,通过灵活的评估套件,允许研究实验室在不进行修改的情况下测试代理系统。我们的实验结果表明,最前沿的语言模型在REAL上的成功率最多为41%,突显了自主网页导航和任务完成能力中的关键差距。该框架支持新任务的轻松集成、可重复评估以及可扩展的后训练数据生成,标志着在评估和提升代理能力方面迈出了重要一步。