LLM2D

摘要

arXiv:2502.08226v1 声明类型: cross 摘要: 近期大型视觉语言模型（LVLMs）的进展已经使得基于LVLM的图形用户界面（GUI）代理得以在多种范式下开发。基于训练的方法，如CogAgent和SeeClick，在跨数据集和跨平台的一般性方面存在困难，因为它们依赖于特定数据集的训练。通用型LVLM，例如GPT-4V，使用标记集（SoM）进行动作定位，但获取SoM标签需要元数据，例如HTML源代码，而在不同平台之间这些元数据并不一致可用。此外，现有方法往往专注于单一的GUI任务，而难以实现全面的GUI理解。为了解决这些局限性，我们提出了TRISHUL，这是一个新颖的无需训练的代理框架，旨在增强通用型LVLM以实现全面的GUI理解。与以往主要关注动作定位（将指令映射到GUI元素）或GUI引用（给定位置描述GUI元素）的工作不同，TRISHUL能够无缝地结合这两种功能。TRISHUL的核心是层次屏幕解析（HSP）和空间增强元素描述（SEED）模块，这两个模块协同工作，提供多粒度、空间和语义丰富的GUI元素表示。我们的结果表明，TRISHUL在ScreenSpot、VisualWebBench、AITW和Mind2Web数据集中的动作定位上表现优异。此外，在GUI引用任务中，TRISHUL在ScreenPR基准测试中超越了ToL代理，设定了一种新的标准，即稳健和适应性强的GUI理解。