摘要
arXiv:2504.20464v1 通告类型: 新
摘要: 由多模态大规模语言模型(MLLMs)驱动的图形用户界面(GUI)代理已经 emergence 作为一种有希望的范式,以使智能与数字系统进行交互。本文提供了 GUI 代理最近进展的结构化摘要,重点关注增强型强化学习(RL)架构。我们首先将 GUI 代理任务形式化为马尔可夫决策过程(MDP),讨论典型的执行环境和评估指标。然后我们回顾了基于(M)LLM 的 GUI 代理的模块化架构,包括感知、规划和执行模块,并通过代表性作品跟踪其演变。此外,我们按提示基础、监督微调(SFT)基础和基于 RL 的方法对 GUI 代理的训练方法进行了分类,突出了从简单的提示工程到通过 RL 实现动态策略学习的进步。我们的摘要展示了最近在多模态感知、决策推理和适应性动作生成方面的创新如何在复杂的现实环境中显著提高了 GUI 代理的一般化能力和鲁棒性。最后,我们确定了构建更强大和可靠的 GUI 代理的关键挑战和未来方向。