摘要
多模态大型语言模型 (MLLMs) 正在改变图形用户界面 (GUI) 代理的能力,促进它们从受控模拟过渡到跨各种平台的复杂现实世界应用。然而,这些代理的有效性取决于其接地能力的稳健性。目前的 GUI 代理主要利用基于文本的表示,例如 HTML 或可访问性树,尽管它们有用,但通常会引入噪声、不完整性和增加的计算开销。在本文中,我们主张为 GUI 代理提供一种类似人类的具身形式,该形式完全以视觉方式感知环境,并直接对 GUI 上的像素级操作进行操作。关键是视觉接地模型,该模型可以将 GUI 元素的各种指代表达式准确地映射到跨不同平台的 GUI 上的坐标。我们表明,一个简单的配方,包括基于网络的合成数据和对 LLaVA 架构的轻微调整,对于训练这种视觉接地模型出奇地有效。我们收集了迄今为止最大的 GUI 视觉接地数据集,包含 1000 万个 GUI 元素及其在 130 万张屏幕截图上的指代表达式,并使用它来训练 UGround,这是一种用于 GUI 代理的强大的通用视觉接地模型。在跨越三个类别(接地、离线代理和在线代理)的六个基准上的实证结果表明:1) UGround 在 GUI 代理的现有视觉接地模型中显著优于现有模型,绝对值高达 20%,以及 2) 具有 UGround 的代理优于最先进的代理,尽管现有代理使用额外的基于文本的输入,而我们的代理仅使用视觉感知。这些结果为 GUI 代理以人类的方式浏览数字世界的可行性和前景提供了强有力的支持。