LLM2D

摘要

arXiv:2503.21620v2 公告类型: 替换摘要：最近的 DeepSeek-R1 通过基于规则的强化学习（RL）展示了大语言模型（LLMs）中推理能力的出现。在此基础上，我们首次探索了基于规则的 RL 如何增强多模态大语言模型（MLLMs）在图形用户界面（GUI）动作预测任务中的推理能力。为此，我们精心策划了一个包含136个具有挑战性的任务的小型高质量数据集，涵盖移动设备上的五种常见动作类型。我们还引入了一个统一的基于规则的动作奖励，从而通过基于策略的算法（如组相对策略优化，GRPO）实现模型优化。实验结果表明，我们提出的数据效率模型 UI-R1-3B 在领域内（ID）和领域外（OOD）任务上均取得了显著改进。具体而言，在领域内基准 AndroidControl 中，动作类型准确性提高了15%，而定位准确性提高了10.3%，相比基准模型（即 Qwen2.5-VL-3B）。在领域外 GUI 定位基准 ScreenSpot-Pro 中，我们的模型超过了基准模型6.0%，并且与通过监督微调（SFT）训练的较大模型（如 OS-Atlas-7B）实现了竞争力相当的性能，后者在76,000个数据集上进行了训练。这些结果突显了基于规则的强化学习在增强 GUI 理解和控制方面的潜力，为该领域未来的研究铺平了道路。