摘要
近年来,大型语言模型(LLM)在作为 AI 助手基础方面展现出非凡的能力。LLM 的一项新兴应用,即在各种网页上浏览网站并与 UI 元素交互,仍未得到充分探索。我们介绍了 Steward,这是一种新型的 LLM 驱动的网页自动化工具,旨在作为一种经济高效、可扩展的端到端解决方案,用于自动化网页交互。传统的浏览器自动化框架,如 Selenium、Puppeteer 和 Playwright,对于大规模的网页交互任务(例如,研究 YouTube 和 Twitter 等平台上的推荐算法)来说,并不具备可扩展性。这些框架需要手动编码交互,限制了它们在大规模或动态环境中的实用性。Steward 通过将 LLM 功能与浏览器自动化相结合来解决这些限制,从而实现对网站的自然语言驱动交互。Steward 通过接收自然语言指令并对网站上的操作序列进行反应式规划和执行,循环直到完成,使其成为开发者和研究人员使用的实用工具。它实现了高效率,以每动作 0.028 美元或每任务平均 0.18 美元的成本在 8.52 到 10.14 秒内完成操作,通过缓存机制,成本进一步降低到 4.8 秒和 0.022 美元。它在真实网站上运行任务,完成成功率为 40%。我们讨论了各种设计和实现挑战,包括状态表示、动作序列选择、系统响应能力、检测任务完成和缓存实现。