LLM2D
UI-R1: 通过强化学习提升GUI代理的动作预测
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
作者: Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.21620v2

摘要

arXiv:2503.21620v2 公告类型: 替换 摘要:最近的 DeepSeek-R1 通过基于规则的强化学习(RL)展示了大语言模型(LLMs)中推理能力的出现。在此基础上,我们首次探索了基于规则的 RL 如何增强多模态大语言模型(MLLMs)在图形用户界面(GUI)动作预测任务中的推理能力。为此,我们精心策划了一个包含136个具有挑战性的任务的小型高质量数据集,涵盖移动设备上的五种常见动作类型。我们还引入了一个统一的基于规则的动作奖励,从而通过基于策略的算法(如组相对策略优化,GRPO)实现模型优化。实验结果表明,我们提出的数据效率模型 UI-R1-3B 在领域内(ID)和领域外(OOD)任务上均取得了显著改进。具体而言,在领域内基准 AndroidControl 中,动作类型准确性提高了15%,而定位准确性提高了10.3%,相比基准模型(即 Qwen2.5-VL-3B)。在领域外 GUI 定位基准 ScreenSpot-Pro 中,我们的模型超过了基准模型6.0%,并且与通过监督微调(SFT)训练的较大模型(如 OS-Atlas-7B)实现了竞争力相当的性能,后者在76,000个数据集上进行了训练。这些结果突显了基于规则的强化学习在增强 GUI 理解和控制方面的潜力,为该领域未来的研究铺平了道路。