LLM2D

摘要

arXiv:2502.08047v2 宣告类型: 替换摘要：当前的GUI代理已经在GUI元素定位方面取得了卓越性能。然而，计划仍然极具挑战性，特别是在对环境初始状态的敏感性方面。具体来说，初始状态的微小差异——例如目标软件没有打开或者界面没有处于默认状态——经常会引发计划错误。这个问题在实际用户场景中普遍存在，但现有的基准测试无法评估这一问题。在本文中，我们提出了WorldGUI，一种新颖的GUI基准测试，该基准测试设计了具有各种初始状态的GUI任务以模拟实际的计算机-用户互动。该基准测试涵盖了包括PowerPoint、VSCode和Adobe Acrobat在内的10个流行软件应用的广泛任务。此外，为了应对动态GUI自动化任务的挑战，我们提出了一种整体框架GUI-Thinker，该框架利用了一种批判机制，有效管理了GUI交互的不可预测性和复杂性。实验结果表明，在WorldGUI任务上，GUI-Thinker在成功率方面显著优于Claude-3.5（计算机使用）14.9%。这一改进突显了我们基于批判思维的框架在提升GUI自动化方面的有效性。代码可在 https://github.com/showlab/WorldGUI 获取。