LLM2D

摘要

arXiv:2502.08226v2 通告类型: replace-cross 摘要: 近期大规模视觉语言模型（LVLMs）的发展使得在各种范式下开发基于LVLM的图形用户界面（GUI）代理成为可能。基于训练的方法，如CogAgent和SeeClick，由于依赖于特定数据集的训练，难以实现跨数据集和跨平台的泛化。通用型的LVLM，如GPT-4V，使用标记集（SoM）进行动作定位，但获取SoM标签需要HTML源代码等元数据，而这些元数据在不同平台上并不一致可用。此外，现有的方法往往专注于单一的GUI任务，而不是实现全面的GUI理解。为了解决这些限制，我们介绍了TRISHUL，这是一种全新的、无需训练的代理框架，旨在增强通用型LVLMs以实现全面的GUI理解。与以往主要关注动作定位（将指令映射到GUI元素）或GUI引用描述（根据位置描述GUI元素）的研究不同，TRISHUL能够无缝集成这两方面。其核心在于层次屏幕解析（HSP）和空间增强元素描述（SEED）模块，这两个模块协同工作，提供了多粒度、空间和语义增强的GUI元素表示。我们的结果显示，TRISHUL在ScreenSpot、VisualWebBench、AITW和Mind2Web数据集上的动作定位性能优越。此外，在GUI引用描述方面，TRISHUL在ScreenPR基准测试中超过了ToL代理，为稳健和适应性强的GUI理解设定了新的标准。