摘要
arXiv:2504.21277v1
公告类型: 新颖
摘要: 将强化学习(RL)整合到多模态大型语言模型(MLLMs)的推理能力中, rapidly emerged as 一种变革性的研究方向。虽然 MLLMs 显着将大型语言模型(LLMs)拓展到处理各种模态,如视觉、音频和视频,但跨多模态输入进行稳健推理仍然是一个主要挑战。本文系统地回顾了 MLLMs 基于 RL 的推理的最新进展,涵盖关键算法设计、奖励机制创新和实际应用。我们强调了两种主要的 RL 理论框架——无价值方法和基于价值的方法——并分析了 RL 如何通过优化推理轨迹和对齐多模态信息来增强推理能力。此外,我们还提供了广泛的基准数据集、评估协议和现有限制的概述,并提出了未来的研究方向,以解决当前瓶颈,如稀疏奖励、低效的跨模态推理和实际部署限制。我们的目标是为对多模态时代基于 RL 的推理感兴趣的研究人员提供一个全面且结构化的指南。