LLM2D
UI-R1: 通过强化学习提升GUI代理的动作预测
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
作者: Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Han Xiao, Shuai Ren, Guanjing Xiong, Hongsheng Li
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2503.21620v3

摘要

arXiv:2503.21620v3 通知类型: 替换 摘要:近期的 DeepSeek-R1 通过强化学习(RL)和基于规则的奖励展示了大型语言模型(LLMs)中推理能力的涌现。尽管它在语言模型中取得了成功,但在多模态领域,特别是在图形用户界面(GUI)代理任务中,其应用仍然被广泛探索。为了解决这一问题,我们提出了 UI-R1,这是第一个框架,旨在探索基于规则的 RL 如何增强多模态大型语言模型(MLLMs)在 GUI 动作预测任务中的推理能力。具体而言,UI-R1 引入了一种新颖的基于规则的动作奖励,使得模型可以通过基于策略的算法(如 Group Relative Policy Optimization, GRPO)进行优化。为高效训练,我们精心整理了一个包含 136 个具有挑战性的任务的小型但高质量的数据集,这些任务涵盖了移动设备上的五种常见动作类型。实验结果表明,我们提出的 UI-R1-3B 在领域内(ID)和领域外(OOD)任务中相对于基模型(即 Qwen2.5-VL-3B)都取得了显著的改进,在 ScreenSpot 上的平均准确率提高了 22.1%,在 ScreenSpot-Pro 上提高了 6.0%,在 ANDROIDCONTROL 上提高了 12.7%。此外,UI-R1-3B 在使用监督微调(SFT)在 76,000 个样本上训练的大模型(例如 OS-Atlas-7B)的性能方面表现出竞争力。这些结果强调了基于规则的强化学习在提高 GUI 理解和控制方面的潜力,为该领域的未来研究铺平了道路。代码网址: https://github.com/lll6gg/UI-R1.