LLM2D

摘要

arXiv:2503.21620v4 宣告类型: 更换摘要: 最近的 DeepSeek-R1 通过基于规则的奖励强化学习 (RL) 展示了大型语言模型 (LLMs) 中推理能力的出现。尽管它在语言模型中取得了成功，但在多模态领域，特别是在图形用户界面 (GUI) 代理任务中，其应用仍然未被充分探索。为了解决这一问题，我们提出了 UI-R1，这是一种探索基于规则的 RL 如何增强多模态大型语言模型 (MLLMs) 在 GUI 动作预测任务中推理能力的第一种框架。具体而言，UI-R1 引入了一种新颖的基于规则的动作奖励，使得通过基于策略的算法（例如组相对策略优化 (GRPO)）进行模型优化成为可能。为了高效训练，我们精心构建了一个包含 136 个具有挑战性的任务的小型高质量数据集，这些任务涵盖了移动设备上的五种常见操作类型。实验结果表明，我们的提出的 UI-R1-3B 在领域内 (ID) 和领域外 (OOD) 任务上均优于基线模型（即 Qwen2.5-VL-3B），平均准确率分别提高了 22.1%（ScreenSpot）、6.0%（ScreenSpot-Pro）和 12.7%（ANDROIDCONTROL）。此外，UI-R1-3B 在使用 76,000 个样本进行监督微调 (SFT) 训练的大模型（例如 OS-Atlas-7B）中表现出竞争力。我们还开发了一个优化版本 UI-R1-E-3B，它显著提高了接地效率和准确性。这些结果突显了基于规则的强化学习在推进 GUI 理解和控制方面的潜力，为未来在此领域的研究铺平了道路。代码网站: https://github.com/lll6gg/UI-R1。