摘要
图形用户界面(GUI)长期以来一直是人机交互的核心,它提供了一种直观且以视觉为导向的方式来访问和交互数字系统。大型语言模型(LLM),特别是多模态模型的出现,开启了GUI自动化的新时代。它们在自然语言理解、代码生成和视觉处理方面展现了卓越的能力。这为新一代基于LLM的GUI代理铺平了道路,这些代理能够解释复杂的GUI元素并根据自然语言指令自主执行操作。这些代理代表着一种范式转变,使用户能够通过简单的会话命令执行复杂的多步骤任务。它们的应用涵盖网络导航、移动应用程序交互和桌面自动化,提供了变革性的用户体验,彻底改变了个人与软件交互的方式。这个新兴领域正在快速发展,在研究和产业方面都取得了显著进展。为了对这一趋势提供结构化的理解,本文对基于LLM的GUI代理进行了全面的综述,探讨了它们的演变历史、核心组件和先进技术。我们探讨了诸如现有的GUI代理框架、用于训练专用GUI代理的数据收集和利用、为GUI任务量身定制的大型动作模型的开发,以及评估其有效性所需的评估指标和基准等研究问题。此外,我们还考察了由这些代理驱动的新兴应用。通过详细的分析,本综述确定了关键的研究差距,并为该领域的未来发展规划了路线图。通过整合基础知识和最先进的发展成果,这项工作旨在指导研究人员和实践者克服挑战,并释放基于LLM的GUI代理的全部潜力。