LLM2D
InfiGUI-R1:从反应性代理到自主推理员的多模态GUI代理发展
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners
作者: Yuhang Liu, Pengxiang Li, Congkai Xie, Xavier Hu, Xiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14239v1

摘要

arXiv:2504.14239v1 ANNOUNCE 类型: 新 摘要: 多模态大型语言模型(MLLMs)已推动图形用户界面(GUI)代理的发展,并在自动化计算设备上的任务方面展现出潜力。近期的工作已经开始探索在GUI任务中的推理,并取得了令人鼓舞的结果。然而,许多当前的方法依赖于手工设计的推理模板,这可能导致对于复杂GUI环境的推理不够健壮和适应性强。同时,一些现有的代理仍然作为反应型行为者运行,主要依赖隐式的推理,这种推理可能在要求规划和错误恢复的GUI任务中缺乏足够的深度。我们认为,要推进这些代理的发展,需要从反应型行为转向基于深思熟虑的推理行为。为了促进这一转变,我们引入了InfiGUI-R1,这是一种通过我们的Actor2Reasoner框架开发的基于MLLM的GUI代理,该框架是一种以推理为中心、两阶段的训练方法,旨在逐步将代理从反应型行为者进化为深思熟虑的推理者。第一阶段,推理注入,侧重于建立一个基本的推理器。我们通过具有明确推理步骤的轨迹,使用空间推理蒸馏将教师模型的跨模态空间推理能力转移给MLLMs,从而使模型能够将GUI的视觉空间信息与逻辑推理结合起来,生成动作。第二阶段,推理增强,使用强化学习将基本的推理器细化为深思熟虑的推理器。这一阶段引入了两种方法:子目标引导,奖励模型生成准确的中间子目标,以及错误恢复场景构建,从识别出容易出错的步骤中创建失败和恢复的训练场景。实验结果表明,InfiGUI-R1在GUI接地和轨迹任务中表现出色。资源可在https://github.com/Reallm-Labs/InfiGUI-R1获取。