LLM2D
TRISHUL:面向大型VLM基于GUI代理的区域识别与屏幕层级理解
TRISHUL: Towards Region Identification and Screen Hierarchy Understanding for Large VLM based GUI Agents
作者: Kunal Singh, Shreyas Singh, Mukund Khanna
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.08226v2

摘要

arXiv:2502.08226v2 通告类型: replace-cross 摘要: 近期大规模视觉语言模型(LVLMs)的发展使得在各种范式下开发基于LVLM的图形用户界面(GUI)代理成为可能。基于训练的方法,如CogAgent和SeeClick,由于依赖于特定数据集的训练,难以实现跨数据集和跨平台的泛化。通用型的LVLM,如GPT-4V,使用标记集(SoM)进行动作定位,但获取SoM标签需要HTML源代码等元数据,而这些元数据在不同平台上并不一致可用。此外,现有的方法往往专注于单一的GUI任务,而不是实现全面的GUI理解。为了解决这些限制,我们介绍了TRISHUL,这是一种全新的、无需训练的代理框架,旨在增强通用型LVLMs以实现全面的GUI理解。与以往主要关注动作定位(将指令映射到GUI元素)或GUI引用描述(根据位置描述GUI元素)的研究不同,TRISHUL能够无缝集成这两方面。其核心在于层次屏幕解析(HSP)和空间增强元素描述(SEED)模块,这两个模块协同工作,提供了多粒度、空间和语义增强的GUI元素表示。我们的结果显示,TRISHUL在ScreenSpot、VisualWebBench、AITW和Mind2Web数据集上的动作定位性能优越。此外,在GUI引用描述方面,TRISHUL在ScreenPR基准测试中超过了ToL代理,为稳健和适应性强的GUI理解设定了新的标准。