LLM2D
强化学习优于监督微调:一个音素问答案列研究
Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering
作者: Gang Li, Jizhong Liu, Heinrich Dinkel, Yadong Niu, Junbo Zhang, Jian Luan
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2503.11197v4

摘要

arXiv:2503.11197v4 通知类型: 替换-交叉 摘要: 最近,强化学习(RL)已被证明极大地增强了大型语言模型(LLMs)的推理能力,并且基于RL的方法已被逐步应用到视觉多模态任务中。然而,在这些进展中,音频模态很大程度上被忽视了。因此,我们进行了一系列在音频理解与推理方面的RL探索,特别聚焦于音频问答(AQA)任务。我们利用群组相对策略优化(GRPO)算法对Qwen2-Audio-7B-Instruct进行了训练,并且我们的实验展示了在MMAU Test-mini基准上的卓越性能,准确率为64.5%。本技术报告的主要发现如下:1)GRPO算法可以有效地应用于大型音频语言模型(LALMs),即使模型只有8.2B参数;2)在仅使用38k后训练样本的情况下,RL显著优于监督微调(SFT),表明基于RL的方法可以在不依赖大数据集的情况下发挥作用;3)明确的推理过程对AQA任务尚未显示出显著的好处,如何高效利用深度思考仍然是进一步研究中的一个开放问题;4)LALMs在听觉语言推理方面仍然远远落后于人类,这表明基于RL的方法值得进一步探索。我们的项目可以在https://github.com/xiaomi-research/r1-aqa 和https://huggingface.co/mispeech/r1-aqa 找到。