LLM2D
TRISHUL:面向大型VLM基于GUI代理的区域识别与屏幕层次理解
TRISHUL: Towards Region Identification and Screen Hierarchy Understanding for Large VLM based GUI Agents
作者: Kunal Singh, Shreyas Singh, Mukund Khanna
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.08226v1

摘要

arXiv:2502.08226v1 声明类型: cross 摘要: 近期大型视觉语言模型(LVLMs)的进展已经使得基于LVLM的图形用户界面(GUI)代理得以在多种范式下开发。基于训练的方法,如CogAgent和SeeClick,在跨数据集和跨平台的一般性方面存在困难,因为它们依赖于特定数据集的训练。通用型LVLM,例如GPT-4V,使用标记集(SoM)进行动作定位,但获取SoM标签需要元数据,例如HTML源代码,而在不同平台之间这些元数据并不一致可用。此外,现有方法往往专注于单一的GUI任务,而难以实现全面的GUI理解。为了解决这些局限性,我们提出了TRISHUL,这是一个新颖的无需训练的代理框架,旨在增强通用型LVLM以实现全面的GUI理解。与以往主要关注动作定位(将指令映射到GUI元素)或GUI引用(给定位置描述GUI元素)的工作不同,TRISHUL能够无缝地结合这两种功能。TRISHUL的核心是层次屏幕解析(HSP)和空间增强元素描述(SEED)模块,这两个模块协同工作,提供多粒度、空间和语义丰富的GUI元素表示。我们的结果表明,TRISHUL在ScreenSpot、VisualWebBench、AITW和Mind2Web数据集中的动作定位上表现优异。此外,在GUI引用任务中,TRISHUL在ScreenPR基准测试中超越了ToL代理,设定了一种新的标准,即稳健和适应性强的GUI理解。