LLM2D

摘要

图形用户界面（GUI）长期以来一直是人机交互的核心，它提供了一种直观且以视觉为导向的方式来访问和交互数字系统。大型语言模型（LLM），特别是多模态模型的出现，开启了GUI自动化的新时代。它们在自然语言理解、代码生成和视觉处理方面展现了卓越的能力。这为新一代基于LLM的GUI代理铺平了道路，这些代理能够解释复杂的GUI元素并根据自然语言指令自主执行操作。这些代理代表着一种范式转变，使用户能够通过简单的会话命令执行复杂的多步骤任务。它们的应用涵盖网络导航、移动应用程序交互和桌面自动化，提供了变革性的用户体验，彻底改变了个人与软件交互的方式。这个新兴领域正在快速发展，在研究和产业方面都取得了显著进展。为了对这一趋势提供结构化的理解，本文对基于LLM的GUI代理进行了全面的综述，探讨了它们的演变历史、核心组件和先进技术。我们探讨了诸如现有的GUI代理框架、用于训练专用GUI代理的数据收集和利用、为GUI任务量身定制的大型动作模型的开发，以及评估其有效性所需的评估指标和基准等研究问题。此外，我们还考察了由这些代理驱动的新兴应用。通过详细的分析，本综述确定了关键的研究差距，并为该领域的未来发展规划了路线图。通过整合基础知识和最先进的发展成果，这项工作旨在指导研究人员和实践者克服挑战，并释放基于LLM的GUI代理的全部潜力。