LLM2D

摘要

arXiv:2503.21620v3 通知类型: 替换摘要：近期的 DeepSeek-R1 通过强化学习（RL）和基于规则的奖励展示了大型语言模型（LLMs）中推理能力的涌现。尽管它在语言模型中取得了成功，但在多模态领域，特别是在图形用户界面（GUI）代理任务中，其应用仍然被广泛探索。为了解决这一问题，我们提出了 UI-R1，这是第一个框架，旨在探索基于规则的 RL 如何增强多模态大型语言模型（MLLMs）在 GUI 动作预测任务中的推理能力。具体而言，UI-R1 引入了一种新颖的基于规则的动作奖励，使得模型可以通过基于策略的算法（如 Group Relative Policy Optimization, GRPO）进行优化。为高效训练，我们精心整理了一个包含 136 个具有挑战性的任务的小型但高质量的数据集，这些任务涵盖了移动设备上的五种常见动作类型。实验结果表明，我们提出的 UI-R1-3B 在领域内（ID）和领域外（OOD）任务中相对于基模型（即 Qwen2.5-VL-3B）都取得了显著的改进，在 ScreenSpot 上的平均准确率提高了 22.1%，在 ScreenSpot-Pro 上提高了 6.0%，在 ANDROIDCONTROL 上提高了 12.7%。此外，UI-R1-3B 在使用监督微调（SFT）在 76,000 个样本上训练的大模型（例如 OS-Atlas-7B）的性能方面表现出竞争力。这些结果强调了基于规则的强化学习在提高 GUI 理解和控制方面的潜力，为该领域的未来研究铺平了道路。代码网址: https://github.com/lll6gg/UI-R1.