摘要
大型语言模型驱动的网页代理的最新进展引入了新的架构和基准,展示了自主网页导航和交互方面的进步。然而,大多数现有基准优先考虑有效性和准确性,而忽略了安全性和可信度等关键因素,这些因素对于在企业环境中部署网页代理至关重要。不安全的网页代理行为(例如意外删除用户帐户或在关键业务操作中执行意外操作)的风险构成了广泛采用的重大障碍。本文提出ST-WebAgentBench,这是一个新的在线基准,专门用于评估企业环境中网页代理的安全性和可信度。该基准基于一个详细的框架,该框架定义了安全和可信 (ST) 代理行为,概述了如何构建 ST 策略,并引入了策略下完成度指标来评估代理性能。我们的评估表明,当前最先进的代理难以遵守策略,并且还不能依赖于关键业务应用程序。此外,我们提出了旨在提高网页代理中策略意识和合规性的架构原则。我们开源了这个基准,并邀请社区贡献,目标是培养新一代更安全、更值得信赖的 AI 代理。所有代码、数据、环境再现资源和视频演示均可在 https://sites.google.com/view/st-webagentbench/home 获取。