摘要
arXiv:2502.08226v2 通告类型: replace-cross
摘要: 近期大规模视觉语言模型(LVLMs)的发展使得在各种范式下开发基于LVLM的图形用户界面(GUI)代理成为可能。基于训练的方法,如CogAgent和SeeClick,由于依赖于特定数据集的训练,难以实现跨数据集和跨平台的泛化。通用型的LVLM,如GPT-4V,使用标记集(SoM)进行动作定位,但获取SoM标签需要HTML源代码等元数据,而这些元数据在不同平台上并不一致可用。此外,现有的方法往往专注于单一的GUI任务,而不是实现全面的GUI理解。为了解决这些限制,我们介绍了TRISHUL,这是一种全新的、无需训练的代理框架,旨在增强通用型LVLMs以实现全面的GUI理解。与以往主要关注动作定位(将指令映射到GUI元素)或GUI引用描述(根据位置描述GUI元素)的研究不同,TRISHUL能够无缝集成这两方面。其核心在于层次屏幕解析(HSP)和空间增强元素描述(SEED)模块,这两个模块协同工作,提供了多粒度、空间和语义增强的GUI元素表示。我们的结果显示,TRISHUL在ScreenSpot、VisualWebBench、AITW和Mind2Web数据集上的动作定位性能优越。此外,在GUI引用描述方面,TRISHUL在ScreenPR基准测试中超过了ToL代理,为稳健和适应性强的GUI理解设定了新的标准。