摘要
arXiv:2504.11543v1 评测类型: 新颖性
摘要: 我们引入了REAL,一个针对真实世界网站的确定性模拟进行多轮次代理评估的基准和框架。REAL包含了11个广泛使用的网站的高保真、确定性复制品,这些网站涵盖了诸如电子商务、旅行、通信和专业网络等多个领域。我们还发布了一个由112项实用任务组成的基准测试,这些任务反映了日常复杂用户交互,需要准确的信息检索和状态改变的操作。所有交互均在这种完全可控的环境中进行,消除了安全风险,并使代理能力和可靠性的评估更加稳健且可重复。我们的新型评估框架结合了基于程序检查的网站状态检查和基于评分标准的LLM判断,适用于信息检索任务。该框架支持开源和专有代理系统,通过一个灵活的评估机制,在保持浏览器环境封闭性的前提下,可以适应黑盒命令,使研究实验室在无需修改的情况下测试代理系统。我们的实验证明,前沿语言模型在REAL上的成功率最高为41%,突显了自主网络导航和任务完成能力的关键差距。该框架支持新任务的轻松集成、可重复的评估和可扩展的数据生成,用于训练网络代理。网站、框架和排行榜可在 https://realevals.xyz 和 https://github.com/agi-inc/REAL 获取。