LLM2D
Explorer: 稳定收集可交互的GUI元素
Explorer: Robust Collection of Interactable GUI Elements
作者: Iason Chaimalas, Arnas Vy\v{s}niauskas, Gabriel Brostow
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.09352v1

摘要

arXiv:2504.09352v1 类型: cross 摘要:自动化现有的图形用户界面(GUI)很重要但很难实现。在使GUI变得用户可访问或以某种方式将其脚本化之前,甚至收集数据以了解原始界面也会带来重大挑战。例如,大量的一般UI数据可能对训练通用机器学习(ML)模型有所帮助,但每个人能够访问这些数据的条件取决于特定应用上ML的精确度。因此,我们从给定用户需要对UI元素在整个应用程序或数字环境中被检测正确的程度具有信心的角度出发。我们主要假设目标应用程序是提前已知的,这样可以针对测试时的目标领域进行个性化数据收集和ML训练。所提出的Explorer系统专注于检测屏幕上的按钮和文本输入框,即交互元素,其中训练过程可以访问应用程序的实时版本。该实时应用程序可以在几乎任何流行的平台(除了iOS手机)上运行,特别地,数据收集特别适用于Android手机或桌面Chrome浏览器。Explorer还允许记录交互式用户会话,并随后映射这些会话如何重叠,并且有时会循环回到类似的状态。我们展示了拥有此类地图如何能够在GUI中实现一种路径规划,让用户通过发出语音命令到达目的地。关键的是,我们将Explorer的代码公开发布在https://github.com/varnelis/Explorer。