LLM2D

摘要

arXiv:2501.16609v3 宣告类型: 重写摘要：尽管网络代理研究工作着重于自动代用户执行任务的前景，但在现实世界的情境中，代理往往在处理复杂任务时表现不尽如人意，也无法准确建模用户偏好。这为人类与代理的合作提供了一个机会，以便更有效地利用代理的功能。我们提出了 CowPilot，这是一种支持自主导航和人类-代理协作网络导航以及评估框架，涵盖了任务成功率和任务效率。CowPilot 通过允许代理提出下一步行动来减少人类需要执行的步骤数量，用户则可以暂停、拒绝或将行动改为其他行动。在执行过程中，用户可以通过覆盖建议或在需要时重新获取代理控制权来与代理交错执行行动。我们在五个常见网站上进行了案例研究，发现人类-代理协作模式实现了 95% 的最高成功率，同时仅需人类执行总步骤的 15.2%。即使在任务执行过程中有人类干预，代理自己也能成功驱动多达一半的任务成功。CowPilot 可以作为跨网站进行数据收集和代理评估的一种有用工具，我们相信这将有助于研究用户和代理如何共同工作。视频演示可在 https://oaishi.github.io/cowpilot.html 查看。