摘要
arXiv:2504.12680v1 通知类型: 新
摘要: 人类可以从顺序的视觉观察中感知和推理空间关系,例如,第一人称视频流。然而,预训练模型是如何获得这些能力,尤其是高级推理能力,仍然不清楚。本文引入了Embodied-R,这是一种结合大规模视觉-语言模型(VLMs)进行感知和小规模语言模型(LMs)进行推理的协作框架。通过考虑思考-答案逻辑一致性的新颖奖励系统与强化学习(RL)相结合,该模型在有限的计算资源下实现了慢思考能力。经过在仅5000个具身视频样本上的训练后,Embodied-R结合一个3B LMs在分布内和分布外的具身空间推理任务上达到了与最先进的多模态推理模型(OpenAI-o1, Gemini-2.5-pro)相当的性能。此外,Embodied-R展示了诸如系统分析和上下文集成等新兴的思考模式。我们进一步探索了包括响应长度、在VLM上的训练、奖励设计策略以及SFT(监督微调)和RL训练后模型泛化的差异等研究问题。