摘要
arXiv:2503.21620v3 通知类型: 替换
摘要:近期的 DeepSeek-R1 通过强化学习(RL)和基于规则的奖励展示了大型语言模型(LLMs)中推理能力的涌现。尽管它在语言模型中取得了成功,但在多模态领域,特别是在图形用户界面(GUI)代理任务中,其应用仍然被广泛探索。为了解决这一问题,我们提出了 UI-R1,这是第一个框架,旨在探索基于规则的 RL 如何增强多模态大型语言模型(MLLMs)在 GUI 动作预测任务中的推理能力。具体而言,UI-R1 引入了一种新颖的基于规则的动作奖励,使得模型可以通过基于策略的算法(如 Group Relative Policy Optimization, GRPO)进行优化。为高效训练,我们精心整理了一个包含 136 个具有挑战性的任务的小型但高质量的数据集,这些任务涵盖了移动设备上的五种常见动作类型。实验结果表明,我们提出的 UI-R1-3B 在领域内(ID)和领域外(OOD)任务中相对于基模型(即 Qwen2.5-VL-3B)都取得了显著的改进,在 ScreenSpot 上的平均准确率提高了 22.1%,在 ScreenSpot-Pro 上提高了 6.0%,在 ANDROIDCONTROL 上提高了 12.7%。此外,UI-R1-3B 在使用监督微调(SFT)在 76,000 个样本上训练的大模型(例如 OS-Atlas-7B)的性能方面表现出竞争力。这些结果强调了基于规则的强化学习在提高 GUI 理解和控制方面的潜力,为该领域的未来研究铺平了道路。代码网址: https://github.com/lll6gg/UI-R1.