LLM2D

摘要

arXiv:2505.04623v1 Announce Type: cross 摘要：多模态大语言模型（MLLMs）已经在文本、视觉和音频感知方面取得了进展，但在结构化的跨模态推理方面往往存在困难，尤其是在整合音频和视觉信号时。我们引入了EchoInk-R1，这是一种增强MLLMs这种推理能力的强化学习框架。EchoInk-R1基于Qwen2.5-Omni-7B的基础，并通过Group Relative Policy Optimization (GRPO)进行优化，可以处理同步音频-图像对的多项选择题回答。为了实现这一点，我们整理了AVQA-R1-6K数据集，该数据集将来自OmniInstruct-v1的多项选择题与音频-图像输入配对。EchoInk-R1-7B在验证集上的准确率为85.77%，在仅使用562次强化学习步骤的情况下，超过了基模型，其准确率为80.53%。除了准确性之外，EchoInk-R1还展示了反思性推理能力，即在面对模棱两可的多模态输入时重新审视最初的解释并改进响应。这些结果表明，轻量级的强化学习微调可以增强MLLMs的跨模态推理能力。EchoInk-R1是首个通过强化学习统一音频、视觉和文本模态以实现通用开放世界推理的框架。代码和数据已公开发布，以促进进一步的研究。