LLM2D
网页代理中的多模态自动验证与自我完善
Multimodal Auto Validation For Self-Refinement in Web Agents
作者: Ruhana Azam, Tamer Abuelsaad, Aditya Vempaty, Ashish Jagmohan
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2410.00689v2

摘要

随着世界数字化进程的加速,能够自动化复杂和重复性任务的网络代理正变得越来越重要,它们在简化工作流程方面发挥着至关重要的作用。本文提出了一种通过多模态验证和自优化来提升网络代理性能的方法。基于最先进的 Agent-E 网络自动化框架,我们对不同模态(文本、视觉)以及层次结构对网络代理自动验证的影响进行了全面研究。我们还引入了利用开发的自动验证器进行网络自动化的自优化机制,使网络代理能够检测和自我纠正工作流程错误。我们的结果表明,在 WebVoyager 基准测试子集上,Agent-E(一种最先进的网络代理)的先前最先进性能得到了显著提升,任务完成率从 76.2% 提升至 81.24%。本文提出的方法为在复杂现实世界场景中构建更加可靠的数字助理铺平了道路。