LLM2D
WorldGUI:综合桌面GUI自动化动态测试
WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation
作者: Henry Hengyuan Zhao, Difei Gao, Mike Zheng Shou
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.08047v2

摘要

arXiv:2502.08047v2 宣告类型: 替换 摘要:当前的GUI代理已经在GUI元素定位方面取得了卓越性能。然而,计划仍然极具挑战性,特别是在对环境初始状态的敏感性方面。具体来说,初始状态的微小差异——例如目标软件没有打开或者界面没有处于默认状态——经常会引发计划错误。这个问题在实际用户场景中普遍存在,但现有的基准测试无法评估这一问题。在本文中,我们提出了WorldGUI,一种新颖的GUI基准测试,该基准测试设计了具有各种初始状态的GUI任务以模拟实际的计算机-用户互动。该基准测试涵盖了包括PowerPoint、VSCode和Adobe Acrobat在内的10个流行软件应用的广泛任务。此外,为了应对动态GUI自动化任务的挑战,我们提出了一种整体框架GUI-Thinker,该框架利用了一种批判机制,有效管理了GUI交互的不可预测性和复杂性。实验结果表明,在WorldGUI任务上,GUI-Thinker在成功率方面显著优于Claude-3.5(计算机使用)14.9%。这一改进突显了我们基于批判思维的框架在提升GUI自动化方面的有效性。代码可在 https://github.com/showlab/WorldGUI 获取。