摘要
arXiv:2503.21620v4 宣告类型: 更换
摘要: 最近的 DeepSeek-R1 通过基于规则的奖励强化学习 (RL) 展示了大型语言模型 (LLMs) 中推理能力的出现。尽管它在语言模型中取得了成功,但在多模态领域,特别是在图形用户界面 (GUI) 代理任务中,其应用仍然未被充分探索。为了解决这一问题,我们提出了 UI-R1,这是一种探索基于规则的 RL 如何增强多模态大型语言模型 (MLLMs) 在 GUI 动作预测任务中推理能力的第一种框架。具体而言,UI-R1 引入了一种新颖的基于规则的动作奖励,使得通过基于策略的算法(例如组相对策略优化 (GRPO))进行模型优化成为可能。为了高效训练,我们精心构建了一个包含 136 个具有挑战性的任务的小型高质量数据集,这些任务涵盖了移动设备上的五种常见操作类型。实验结果表明,我们的提出的 UI-R1-3B 在领域内 (ID) 和领域外 (OOD) 任务上均优于基线模型(即 Qwen2.5-VL-3B),平均准确率分别提高了 22.1%(ScreenSpot)、6.0%(ScreenSpot-Pro)和 12.7%(ANDROIDCONTROL)。此外,UI-R1-3B 在使用 76,000 个样本进行监督微调 (SFT) 训练的大模型(例如 OS-Atlas-7B)中表现出竞争力。我们还开发了一个优化版本 UI-R1-E-3B,它显著提高了接地效率和准确性。这些结果突显了基于规则的强化学习在推进 GUI 理解和控制方面的潜力,为未来在此领域的研究铺平了道路。代码网站: https://github.com/lll6gg/UI-R1。