LLM2D

摘要

arXiv:2505.00684v1 视觉测试时缩放类型：交叉摘要：我们介绍了RegionFocus，这是一种视觉测试时缩放方法，用于Vision Language Model Agents。理解网页因GUI图像的视觉复杂性和界面元素的大量存在而具有挑战性，这使得准确的动作选择变得困难。我们的方法动态地聚焦于相关的区域，减少了背景杂乱，提高了语义关联的准确性。为支持这一过程，我们提出了一种图像作为地图的机制，在每个步骤中可视化关键地标，提供透明的动作记录，并使代理有效选择动作候选方案。即使使用简单的区域选择策略，在UI-TARS和Qwen2.5-VL两种最先进的开放视觉语言模型代理的基础上，我们在Screenspot-pro和WebVoyager基准测试中分别观察到了28+\%和24+\%的性能提升，突显了视觉测试时缩放在交互式设置中的有效性。通过将RegionFocus应用于Qwen2.5-VL-72B模型，我们在ScreenSpot-Pro基准测试中实现了61.6\%的新最先进的语义关联性能。我们的代码将在https://github.com/tiangeluo/RegionFocus公开发布。