LLM2D

摘要

arXiv:2504.08942v1 类型: cross 摘要: 网页代理使用户能够通过自然语言交互在网页浏览器中执行任务。评估网页代理的轨迹是一个重要的问题，因为它有助于我们确定代理是否成功完成了任务。基于规则的方法广泛用于这一目的，但它们难以扩展到新任务，可能不一定总是能够识别成功的轨迹。我们可能通过人工评估获得更高的准确性，但过程会显著减慢并增加成本。使用大语言模型（LLM）的自动评估可以避免设计新规则和手动标注轨迹的挑战，从而实现更快、成本更低的评估。然而，对于评估网页代理的有效性尚不清楚。为了解决这一问题，我们提出了AgentRewardBench，这是首个评估大语言模型法官评估网页代理有效性基准。AgentRewardBench包含了5个基准和4个大语言模型中的1302个轨迹。AgentRewardBench中的每个轨迹都由专家审核，专家回答关于代理成功、副作用和重复性的问题。使用我们的基准，我们评估了12个大语言模型法官，发现没有任何一个大语言模型在所有基准上都表现出色。我们还发现，通用基准使用的基于规则的评估倾向于低估代理的成功率，这突显了基于规则的评估的一个关键弱点，并强调了开发更灵活的自动评估的重要性。我们在此发布了基准：https://agent-reward-bench.github.io