摘要
arXiv:2503.21620v1 宣布类型: 新
摘要: 近期的 DeepSeek-R1 通过基于规则的强化学习 (RL) 展现了语言模型 (LLM) 的推理能力。在此基础上,我们首次探索基于规则的 RL 如何增强多模态大型语言模型 (MLLM) 在图形用户界面 (GUI) 动作预测任务中的推理能力。为此,我们精心收集了一个包含 136 个挑战性任务的小型但高质量的数据集,涵盖了移动设备中的五种常见动作类型。我们还引入了一个统一的基于规则的动作奖励,使得可以通过策略优化算法(如群体相对策略优化 GRPO)进行模型优化。实验结果表明,我们提出的数据高效模型 UI-R1-3B 在领域内 (ID) 和领域外 (OOD) 任务上均实现了显著的改进。具体来说,在领域内基准 AndroidControl 中,动作类型准确率提高了 15%,而语义准确率提高了 10.3%,相比于基模型(即 Qwen2.5-VL-3B)。在领域外 GUI 语义基准 ScreenSpot-Pro 中,我们的模型超越了基模型 6.0%,并且在与更大规模模型(如 OS-Atlas-7B)相竞争的性能上表现良好,后者是通过 76,000 个数据的监督微调 (SFT) 训练的。这些结果凸显了基于规则的强化学习在提升 GUI 理解和控制方面的潜力,为该领域的未来研究铺平了道路。