摘要
构建图形用户界面 (GUI) 助手对于提高人类工作流程效率具有重要意义。虽然大多数代理是基于语言的,依赖于具有文本丰富元信息的闭源 API(例如,HTML 或辅助功能树),但它们在感知 UI 可视化方面与人类相比存在局限性,突出了对 GUI 可视化代理的需求。在这项工作中,我们开发了一个数字世界中的视觉-语言-动作模型,即 ShowUI,其具有以下创新之处:(i)UI 引导的视觉标记选择,通过将屏幕截图制定为 UI 连接图来降低计算成本,自适应地识别它们的冗余关系并作为自注意力块中标记选择的标准;(ii)交错的视觉-语言-动作流,灵活地统一 GUI 任务中的各种需求,能够有效管理导航中的视觉-动作历史或每张屏幕截图配对多轮查询-动作序列以提高训练效率;(iii)通过仔细的数据整理和采用重采样策略来解决数据类型严重不平衡问题的小规模高质量 GUI 指令遵循数据集。凭借上述组件,ShowUI(一个使用 256K 数据的轻量级 2B 模型)在零样本屏幕截图定位方面实现了 75.1% 的高准确率。其 UI 引导的标记选择进一步减少了训练期间 33% 的冗余视觉标记,并将性能提高了 1.4 倍。跨 Web Mind2Web、移动 AITW 和在线 MiniWob 环境的导航实验进一步强调了我们的模型在推进 GUI 可视化代理方面的有效性和潜力。模型可在 https://github.com/showlab/ShowUI 获取。