摘要
arXiv:2412.10342v2 通知类型: replace-cross
摘要:数字代理正越来越多地被用于自动化交互数字环境(如网页、软件应用程序和操作系统中的任务)。虽然基于大型语言模型(LLMs)的文本代理需要频繁更新以适应特定平台的API,但利用多功能大型语言模型(MLLMs)的视觉代理通过直接与图形用户界面(GUI)交互,增强了适应性。然而,这些代理在视觉感知方面面临重大挑战,特别是在处理高分辨率、视觉复杂的数字环境中时。本文介绍了Iris,这是一种基础视觉代理,通过两项关键技术革新来解决这些挑战:信息敏感裁剪(ISC)和自我精细双学习(SRDL)。ISC利用边缘检测算法动态识别并优先处理视觉密集区域,通过将更多的计算资源分配给信息密度较高的区域来实现高效处理。SRDL通过利用双重学习循环来增强代理处理复杂任务的能力,在该循环中,描述UI元素的改进会强化定位元素,并反之亦然,而无需额外的标注数据。实证评估表明,Iris仅使用850K GUI注释即可在多个基准测试中达到最先进的性能,而使用10倍以上训练数据的方法则无法超越其性能。这些改进还进一步转化为在Web和操作系统代理下游任务中的重大收益。