摘要
arXiv:2411.04890v2 提示类型: 替换
摘要: 近年来,基础模型的最新进展,尤其是大型语言模型(LLMs)和多模态大型语言模型(MLLMs),促进了能够执行复杂任务的智能代理的发展。通过利用(M)LLMs处理和解读图形用户界面(GUIs)的能力,这些代理可以自主执行用户指令,模拟人类交互,如点击和打字。本综述汇集了基于(M)LLM的GUI代理的最新研究,突出了关键创新的数据资源、框架和应用。我们首先回顾了代表性数据集和基准测试,随后概述了一个通用、统一的框架,该框架包含先前研究中的核心组成部分,并附有详细的分类学。此外,我们探讨了相关的商业应用。从现有工作的经验中汲取启发,我们识别了关键挑战并提出了未来的研究方向。希望本综述能激发(M)LLM基础的GUI代理领域的进一步发展。