LLM2D
AgentRewardBench:评估对Web代理轨迹的自动评价方法
AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories
作者: Xing Han L\`u, Amirhossein Kazemnejad, Nicholas Meade, Arkil Patel, Dongchan Shin, Alejandra Zambrano, Karolina Sta\'nczak, Peter Shaw, Christopher J. Pal, Siva Reddy
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.08942v1

摘要

arXiv:2504.08942v1 类型: cross 摘要: 网页代理使用户能够通过自然语言交互在网页浏览器中执行任务。评估网页代理的轨迹是一个重要的问题,因为它有助于我们确定代理是否成功完成了任务。基于规则的方法广泛用于这一目的,但它们难以扩展到新任务,可能不一定总是能够识别成功的轨迹。我们可能通过人工评估获得更高的准确性,但过程会显著减慢并增加成本。使用大语言模型(LLM)的自动评估可以避免设计新规则和手动标注轨迹的挑战,从而实现更快、成本更低的评估。然而,对于评估网页代理的有效性尚不清楚。为了解决这一问题,我们提出了AgentRewardBench,这是首个评估大语言模型法官评估网页代理有效性基准。AgentRewardBench包含了5个基准和4个大语言模型中的1302个轨迹。AgentRewardBench中的每个轨迹都由专家审核,专家回答关于代理成功、副作用和重复性的问题。使用我们的基准,我们评估了12个大语言模型法官,发现没有任何一个大语言模型在所有基准上都表现出色。我们还发现,通用基准使用的基于规则的评估倾向于低估代理的成功率,这突显了基于规则的评估的一个关键弱点,并强调了开发更灵活的自动评估的重要性。我们在此发布了基准:https://agent-reward-bench.github.io