LLM2D

摘要

arXiv:2504.20464v2 通知类型: 替换摘要：由多模态大规模语言模型（MLLMs）驱动的图形用户界面（GUI）代理已经作为一种有前景的方法出现，使得智能地与数字系统进行交互成为可能。本文提供了一个关于GUI代理近年来发展的结构化概述，重点关注增强学习（RL）的架构。我们首先将GUI代理任务形式化为马尔可夫决策过程，并讨论典型的执行环境和评估指标。然后，我们回顾了基于（M）LLM的GUI代理的模块化架构，涵盖了感知、规划和执行模块，并通过代表性的工作追踪其演变。此外，我们将GUI代理的训练方法分类为基于提示的、基于监督微调（SFT）的和基于RL的方法，强调从简单的提示工程到通过RL进行动态策略学习的进步。我们的概要说明了多模态感知、决策推理和自适应动作生成的最近创新如何显著提高了GUI代理在复杂真实环境中的泛化能力和鲁棒性。最后，我们指出了构建更强大和可靠的GUI代理的关键挑战和未来方向。