摘要
图形用户界面 (GUI) 接地技术对于增强视觉语言模型 (VLM) 智能体的能力至关重要。虽然像 GPT-4V 这样的通用 VLM 在各种任务中表现出色,但它们在 GUI 接地方面的能力仍然不足。最近的研究集中于针对一次性 GUI 接地对这些模型进行微调,从而显著提高了基线性能。我们引入了一种视觉提示框架,该框架采用迭代缩小机制,将通用模型和微调模型在 GUI 接地方面的性能提高了高达 61%。为了进行评估,我们在包含各种 UI 平台的综合基准上测试了我们的方法,并提供了可复现我们结果的代码。