LLM2D

摘要

arXiv:2503.21620v1 宣布类型: 新摘要: 近期的 DeepSeek-R1 通过基于规则的强化学习 (RL) 展现了语言模型 (LLM) 的推理能力。在此基础上，我们首次探索基于规则的 RL 如何增强多模态大型语言模型 (MLLM) 在图形用户界面 (GUI) 动作预测任务中的推理能力。为此，我们精心收集了一个包含 136 个挑战性任务的小型但高质量的数据集，涵盖了移动设备中的五种常见动作类型。我们还引入了一个统一的基于规则的动作奖励，使得可以通过策略优化算法（如群体相对策略优化 GRPO）进行模型优化。实验结果表明，我们提出的数据高效模型 UI-R1-3B 在领域内 (ID) 和领域外 (OOD) 任务上均实现了显著的改进。具体来说，在领域内基准 AndroidControl 中，动作类型准确率提高了 15%，而语义准确率提高了 10.3%，相比于基模型（即 Qwen2.5-VL-3B）。在领域外 GUI 语义基准 ScreenSpot-Pro 中，我们的模型超越了基模型 6.0%，并且在与更大规模模型（如 OS-Atlas-7B）相竞争的性能上表现良好，后者是通过 76,000 个数据的监督微调 (SFT) 训练的。这些结果凸显了基于规则的强化学习在提升 GUI 理解和控制方面的潜力，为该领域的未来研究铺平了道路。