LLM2D

摘要

arXiv:2503.11197v4 通知类型: 替换-交叉摘要: 最近，强化学习（RL）已被证明极大地增强了大型语言模型（LLMs）的推理能力，并且基于RL的方法已被逐步应用到视觉多模态任务中。然而，在这些进展中，音频模态很大程度上被忽视了。因此，我们进行了一系列在音频理解与推理方面的RL探索，特别聚焦于音频问答（AQA）任务。我们利用群组相对策略优化（GRPO）算法对Qwen2-Audio-7B-Instruct进行了训练，并且我们的实验展示了在MMAU Test-mini基准上的卓越性能，准确率为64.5%。本技术报告的主要发现如下：1）GRPO算法可以有效地应用于大型音频语言模型（LALMs），即使模型只有8.2B参数；2）在仅使用38k后训练样本的情况下，RL显著优于监督微调（SFT），表明基于RL的方法可以在不依赖大数据集的情况下发挥作用；3）明确的推理过程对AQA任务尚未显示出显著的好处，如何高效利用深度思考仍然是进一步研究中的一个开放问题；4）LALMs在听觉语言推理方面仍然远远落后于人类，这表明基于RL的方法值得进一步探索。我们的项目可以在https://github.com/xiaomi-research/r1-aqa 和https://huggingface.co/mispeech/r1-aqa 找到。