LLM2D
EchoInk-R1:通过强化学习在多模态LLM中探索音视频推理
EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning
作者: Zhenghao Xing, Xiaowei Hu, Chi-Wing Fu, Wenhai Wang, Jifeng Dai, Pheng-Ann Heng
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2505.04623v1

摘要

arXiv:2505.04623v1 Announce Type: cross 摘要:多模态大语言模型(MLLMs)已经在文本、视觉和音频感知方面取得了进展,但在结构化的跨模态推理方面往往存在困难,尤其是在整合音频和视觉信号时。我们引入了EchoInk-R1,这是一种增强MLLMs这种推理能力的强化学习框架。EchoInk-R1基于Qwen2.5-Omni-7B的基础,并通过Group Relative Policy Optimization (GRPO)进行优化,可以处理同步音频-图像对的多项选择题回答。为了实现这一点,我们整理了AVQA-R1-6K数据集,该数据集将来自OmniInstruct-v1的多项选择题与音频-图像输入配对。EchoInk-R1-7B在验证集上的准确率为85.77%,在仅使用562次强化学习步骤的情况下,超过了基模型,其准确率为80.53%。除了准确性之外,EchoInk-R1还展示了反思性推理能力,即在面对模棱两可的多模态输入时重新审视最初的解释并改进响应。这些结果表明,轻量级的强化学习微调可以增强MLLMs的跨模态推理能力。EchoInk-R1是首个通过强化学习统一音频、视觉和文本模态以实现通用开放世界推理的框架。代码和数据已公开发布,以促进进一步的研究。