LLM2D

摘要

arXiv:2504.21277v1 公告类型: 新颖摘要: 将强化学习（RL）整合到多模态大型语言模型（MLLMs）的推理能力中， rapidly emerged as 一种变革性的研究方向。虽然 MLLMs 显着将大型语言模型（LLMs）拓展到处理各种模态，如视觉、音频和视频，但跨多模态输入进行稳健推理仍然是一个主要挑战。本文系统地回顾了 MLLMs 基于 RL 的推理的最新进展，涵盖关键算法设计、奖励机制创新和实际应用。我们强调了两种主要的 RL 理论框架——无价值方法和基于价值的方法——并分析了 RL 如何通过优化推理轨迹和对齐多模态信息来增强推理能力。此外，我们还提供了广泛的基准数据集、评估协议和现有限制的概述，并提出了未来的研究方向，以解决当前瓶颈，如稀疏奖励、低效的跨模态推理和实际部署限制。我们的目标是为对多模态时代基于 RL 的推理感兴趣的研究人员提供一个全面且结构化的指南。