LLM2D

摘要

arXiv:2504.14239v1 ANNOUNCE 类型: 新摘要: 多模态大型语言模型（MLLMs）已推动图形用户界面（GUI）代理的发展，并在自动化计算设备上的任务方面展现出潜力。近期的工作已经开始探索在GUI任务中的推理，并取得了令人鼓舞的结果。然而，许多当前的方法依赖于手工设计的推理模板，这可能导致对于复杂GUI环境的推理不够健壮和适应性强。同时，一些现有的代理仍然作为反应型行为者运行，主要依赖隐式的推理，这种推理可能在要求规划和错误恢复的GUI任务中缺乏足够的深度。我们认为，要推进这些代理的发展，需要从反应型行为转向基于深思熟虑的推理行为。为了促进这一转变，我们引入了InfiGUI-R1，这是一种通过我们的Actor2Reasoner框架开发的基于MLLM的GUI代理，该框架是一种以推理为中心、两阶段的训练方法，旨在逐步将代理从反应型行为者进化为深思熟虑的推理者。第一阶段，推理注入，侧重于建立一个基本的推理器。我们通过具有明确推理步骤的轨迹，使用空间推理蒸馏将教师模型的跨模态空间推理能力转移给MLLMs，从而使模型能够将GUI的视觉空间信息与逻辑推理结合起来，生成动作。第二阶段，推理增强，使用强化学习将基本的推理器细化为深思熟虑的推理器。这一阶段引入了两种方法：子目标引导，奖励模型生成准确的中间子目标，以及错误恢复场景构建，从识别出容易出错的步骤中创建失败和恢复的训练场景。实验结果表明，InfiGUI-R1在GUI接地和轨迹任务中表现出色。资源可在https://github.com/Reallm-Labs/InfiGUI-R1获取。