LLM2D

摘要

arXiv:2501.16609v2 类别：替换摘要：尽管许多关于网络代理的研究强调了其代表用户自主执行任务的潜力，但在现实世界的情景中，代理在复杂任务上的表现往往不尽如人意，且在建模用户偏好方面也存在不足。这为人类与代理合作并有效利用代理的能力提供了机会。我们提出了 CowPilot 框架，支持自主导航以及人类与代理的协作式网络导航，并在任务成功率和任务效率方面进行了评估。CowPilot 通过允许代理提议下一步操作来减少人类需要执行的步骤数量，同时用户可以暂停、拒绝或采取替代行动。在执行过程中，用户可以通过 Override 建议或在需要时恢复代理控制来交错他们的操作。我们在五个常见的网站上进行了案例研究，发现协作模式实现了最高的成功率95%，同时仅需人类执行总步骤的15.2%。即使在任务执行过程中有用户干预，代理也能独自驱动一半以上的任务成功。CowPilot 可以作为跨网站进行数据收集和代理评估的有用工具，我们认为这将有助于研究用户和代理如何合作。视频演示可在 https://oaishi.github.io/cowpilot.html 查看。