LLM2D
基于迭代收缩的改进型图形用户界面语义定位
Improved GUI Grounding via Iterative Narrowing
作者: Anthony Nguyen
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.13591v2

摘要

图形用户界面 (GUI) 接地技术对于增强视觉语言模型 (VLM) 智能体的能力至关重要。虽然像 GPT-4V 这样的通用 VLM 在各种任务中表现出色,但它们在 GUI 接地方面的能力仍然不足。最近的研究集中于针对一次性 GUI 接地对这些模型进行微调,从而显著提高了基线性能。我们引入了一种视觉提示框架,该框架采用迭代缩小机制,将通用模型和微调模型在 GUI 接地方面的性能提高了高达 61%。为了进行评估,我们在包含各种 UI 平台的综合基准上测试了我们的方法,并提供了可复现我们结果的代码。