LLM2D
基于基础模型的GUI代理:一个全面的综述
GUI Agents with Foundation Models: A Comprehensive Survey
作者: Shuai Wang, Weiwen Liu, Jingxuan Chen, Yuqi Zhou, Weinan Gan, Xingshan Zeng, Yuhan Che, Shuai Yu, Xinlong Hao, Kun Shao, Bin Wang, Chuhan Wu, Yasheng Wang, Ruiming Tang, Jianye Hao
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2411.04890v2

摘要

arXiv:2411.04890v2 提示类型: 替换 摘要: 近年来,基础模型的最新进展,尤其是大型语言模型(LLMs)和多模态大型语言模型(MLLMs),促进了能够执行复杂任务的智能代理的发展。通过利用(M)LLMs处理和解读图形用户界面(GUIs)的能力,这些代理可以自主执行用户指令,模拟人类交互,如点击和打字。本综述汇集了基于(M)LLM的GUI代理的最新研究,突出了关键创新的数据资源、框架和应用。我们首先回顾了代表性数据集和基准测试,随后概述了一个通用、统一的框架,该框架包含先前研究中的核心组成部分,并附有详细的分类学。此外,我们探讨了相关的商业应用。从现有工作的经验中汲取启发,我们识别了关键挑战并提出了未来的研究方向。希望本综述能激发(M)LLM基础的GUI代理领域的进一步发展。