LLM2D

摘要

arXiv:2412.10342v2 通知类型: replace-cross 摘要：数字代理正越来越多地被用于自动化交互数字环境（如网页、软件应用程序和操作系统中的任务）。虽然基于大型语言模型（LLMs）的文本代理需要频繁更新以适应特定平台的API，但利用多功能大型语言模型（MLLMs）的视觉代理通过直接与图形用户界面（GUI）交互，增强了适应性。然而，这些代理在视觉感知方面面临重大挑战，特别是在处理高分辨率、视觉复杂的数字环境中时。本文介绍了Iris，这是一种基础视觉代理，通过两项关键技术革新来解决这些挑战：信息敏感裁剪（ISC）和自我精细双学习（SRDL）。ISC利用边缘检测算法动态识别并优先处理视觉密集区域，通过将更多的计算资源分配给信息密度较高的区域来实现高效处理。SRDL通过利用双重学习循环来增强代理处理复杂任务的能力，在该循环中，描述UI元素的改进会强化定位元素，并反之亦然，而无需额外的标注数据。实证评估表明，Iris仅使用850K GUI注释即可在多个基准测试中达到最先进的性能，而使用10倍以上训练数据的方法则无法超越其性能。这些改进还进一步转化为在Web和操作系统代理下游任务中的重大收益。