LLM2D

摘要

arXiv:2411.04890v2 提示类型: 替换摘要: 近年来，基础模型的最新进展，尤其是大型语言模型（LLMs）和多模态大型语言模型（MLLMs），促进了能够执行复杂任务的智能代理的发展。通过利用（M）LLMs处理和解读图形用户界面（GUIs）的能力，这些代理可以自主执行用户指令，模拟人类交互，如点击和打字。本综述汇集了基于（M）LLM的GUI代理的最新研究，突出了关键创新的数据资源、框架和应用。我们首先回顾了代表性数据集和基准测试，随后概述了一个通用、统一的框架，该框架包含先前研究中的核心组成部分，并附有详细的分类学。此外，我们探讨了相关的商业应用。从现有工作的经验中汲取启发，我们识别了关键挑战并提出了未来的研究方向。希望本综述能激发（M）LLM基础的GUI代理领域的进一步发展。