LLM2D
基于强化学习增强的基础模型GUI代理综述
A Survey on GUI Agents with Foundation Models Enhanced by Reinforcement Learning
作者: Jiahao Li, Kaer Huang
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2504.20464v2

摘要

arXiv:2504.20464v2 通知类型: 替换 摘要:由多模态大规模语言模型(MLLMs)驱动的图形用户界面(GUI)代理已经作为一种有前景的方法出现,使得智能地与数字系统进行交互成为可能。本文提供了一个关于GUI代理近年来发展的结构化概述,重点关注增强学习(RL)的架构。我们首先将GUI代理任务形式化为马尔可夫决策过程,并讨论典型的执行环境和评估指标。然后,我们回顾了基于(M)LLM的GUI代理的模块化架构,涵盖了感知、规划和执行模块,并通过代表性的工作追踪其演变。此外,我们将GUI代理的训练方法分类为基于提示的、基于监督微调(SFT)的和基于RL的方法,强调从简单的提示工程到通过RL进行动态策略学习的进步。我们的概要说明了多模态感知、决策推理和自适应动作生成的最近创新如何显著提高了GUI代理在复杂真实环境中的泛化能力和鲁棒性。最后,我们指出了构建更强大和可靠的GUI代理的关键挑战和未来方向。