LLM2D
WorldGUI:全面桌面GUI自动化动态测试
WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation
作者: Henry Hengyuan Zhao, Difei Gao, Mike Zheng Shou
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.08047v1

摘要

arXiv:2502.08047v1 类型: 新闻 摘要: 当前的GUI代理在GUI元素定位方面已经取得了卓越的表现。然而,在规划方面仍然存在巨大的挑战,尤其是在环境初始状态的影响下。具体来说,初始状态的微小差异——例如目标软件未打开或界面未处于默认状态——往往会导致规划错误。这一问题在实际用户场景中普遍存在,但现有的基准测试无法评估这一问题。本文中,我们提出了WorldGUI,这是一种新型的GUI基准测试,旨在通过设计具有多种初始状态的GUI任务来模拟真实的计算机-用户交互。该基准涵盖10个流行的软件应用程序的任务,包括PowerPoint、VSCode和Adobe Acrobat。此外,为了应对动态GUI自动化任务的挑战,我们提出了一种全面的框架——GUI-Thinker,该框架利用一种批判机制,有效地管理GUI交互的不可预测性和复杂性。实验结果表明,在WorldGUI任务中,GUI-Thinker在成功率方面显著优于Claude-3.5 (计算机使用) 14.9%。这一改进突显了我们基于批判性思考的框架在增强GUI自动化方面的有效性。