摘要
arXiv:2504.08942v1 类型: cross
摘要: 网页代理使用户能够通过自然语言交互在网页浏览器中执行任务。评估网页代理的轨迹是一个重要的问题,因为它有助于我们确定代理是否成功完成了任务。基于规则的方法广泛用于这一目的,但它们难以扩展到新任务,可能不一定总是能够识别成功的轨迹。我们可能通过人工评估获得更高的准确性,但过程会显著减慢并增加成本。使用大语言模型(LLM)的自动评估可以避免设计新规则和手动标注轨迹的挑战,从而实现更快、成本更低的评估。然而,对于评估网页代理的有效性尚不清楚。为了解决这一问题,我们提出了AgentRewardBench,这是首个评估大语言模型法官评估网页代理有效性基准。AgentRewardBench包含了5个基准和4个大语言模型中的1302个轨迹。AgentRewardBench中的每个轨迹都由专家审核,专家回答关于代理成功、副作用和重复性的问题。使用我们的基准,我们评估了12个大语言模型法官,发现没有任何一个大语言模型在所有基准上都表现出色。我们还发现,通用基准使用的基于规则的评估倾向于低估代理的成功率,这突显了基于规则的评估的一个关键弱点,并强调了开发更灵活的自动评估的重要性。我们在此发布了基准:https://agent-reward-bench.github.io