LLM2D
Iris: 通过自适应焦点与自我精炼简化GUI复杂性
Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining
作者: Zhiqi Ge, Juncheng Li, Xinglei Pang, Minghe Gao, Kaihang Pan, Wang Lin, Hao Fei, Wenqiao Zhang, Siliang Tang, Yueting Zhuang
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2412.10342v2

摘要

arXiv:2412.10342v2 通知类型: replace-cross 摘要:数字代理正越来越多地被用于自动化交互数字环境(如网页、软件应用程序和操作系统中的任务)。虽然基于大型语言模型(LLMs)的文本代理需要频繁更新以适应特定平台的API,但利用多功能大型语言模型(MLLMs)的视觉代理通过直接与图形用户界面(GUI)交互,增强了适应性。然而,这些代理在视觉感知方面面临重大挑战,特别是在处理高分辨率、视觉复杂的数字环境中时。本文介绍了Iris,这是一种基础视觉代理,通过两项关键技术革新来解决这些挑战:信息敏感裁剪(ISC)和自我精细双学习(SRDL)。ISC利用边缘检测算法动态识别并优先处理视觉密集区域,通过将更多的计算资源分配给信息密度较高的区域来实现高效处理。SRDL通过利用双重学习循环来增强代理处理复杂任务的能力,在该循环中,描述UI元素的改进会强化定位元素,并反之亦然,而无需额外的标注数据。实证评估表明,Iris仅使用850K GUI注释即可在多个基准测试中达到最先进的性能,而使用10倍以上训练数据的方法则无法超越其性能。这些改进还进一步转化为在Web和操作系统代理下游任务中的重大收益。