LLM2D
GUI代理绑定的视觉测试时缩放
Visual Test-time Scaling for GUI Agent Grounding
作者: Tiange Luo, Lajanugen Logeswaran, Justin Johnson, Honglak Lee
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2505.00684v1

摘要

arXiv:2505.00684v1 视觉测试时缩放类型:交叉 摘要:我们介绍了RegionFocus,这是一种视觉测试时缩放方法,用于Vision Language Model Agents。理解网页因GUI图像的视觉复杂性和界面元素的大量存在而具有挑战性,这使得准确的动作选择变得困难。我们的方法动态地聚焦于相关的区域,减少了背景杂乱,提高了语义关联的准确性。为支持这一过程,我们提出了一种图像作为地图的机制,在每个步骤中可视化关键地标,提供透明的动作记录,并使代理有效选择动作候选方案。即使使用简单的区域选择策略,在UI-TARS和Qwen2.5-VL两种最先进的开放视觉语言模型代理的基础上,我们在Screenspot-pro和WebVoyager基准测试中分别观察到了28+\%和24+\%的性能提升,突显了视觉测试时缩放在交互式设置中的有效性。通过将RegionFocus应用于Qwen2.5-VL-72B模型,我们在ScreenSpot-Pro基准测试中实现了61.6\%的新最先进的语义关联性能。我们的代码将在https://github.com/tiangeluo/RegionFocus公开发布。