LLM2D

摘要

arXiv:2504.11543v2 Announce Type: replace 摘要：我们介绍了REAL，这是一个基准和框架，用于在真实世界网站的确定性模拟中进行多轮代理评估。REAL包括了电子商务、旅行、通讯和专业社交等领域广泛使用的11个网站的高保真、确定性复制品。我们还发布了一个基准，包含112项实用任务，这些任务与日常复杂的用户交互相似，要求准确的信息检索和状态改变的操作。所有交互都发生在完全受控的环境中，消除了安全风险，使代理能力和可靠性评估更加稳健和可重复。我们新的评估框架将基于程序检查的网站状态检查与基于LLM的评分表指导判断相结合，适用于基于任务的操作型任务。该框架支持开源和专有代理系统，通过灵活的评估套件，允许研究实验室在不进行修改的情况下测试代理系统。我们的实验结果表明，最前沿的语言模型在REAL上的成功率最多为41%，突显了自主网页导航和任务完成能力中的关键差距。该框架支持新任务的轻松集成、可重复评估以及可扩展的后训练数据生成，标志着在评估和提升代理能力方面迈出了重要一步。