摘要
arXiv:2504.13865v1 类型: cross
摘要:图形用户界面(GUI)代理已成为人机交互的一项变革性范式,从基于规则的自动化脚本演进为能够理解并执行复杂界面操作的高级AI驱动系统。本文综述了基于大语言模型(LLM)的GUI代理的快速发展的领域,系统地分析了其架构基础、技术组件和评估方法。我们识别并分析了构成现代GUI代理的四个基本组成部分:(1)结合基于文本解析的多模态理解的感知系统,以实现全面的界面理解;(2)探索机制,通过内部建模、历史经验及外部信息检索构建和维护知识库;(3)利用高级推理方法进行任务分解和执行的规划框架;以及(4)管理动作生成并具备稳健安全控制的交互系统。通过这些组件的深入分析,我们揭示了大型语言模型和多模态学习的最新进展如何在桌面、移动和网页平台上彻底改变了GUI自动化的面貌。我们对现有的评估框架进行了批判性审查,指出了现有基准方法的局限性,并提出了标准制定的方向。本文还识别了关键技术挑战,包括准确的元素定位、有效的知识检索、长期规划和安全感知执行控制,并概述了增强GUI代理能力的有前景的研究方向。我们的系统综述为研究人员和从业者提供了对该领域当前状态的全面理解,并提供了对未来智能界面自动化发展的洞察。