LLM2D
通过音频语言模型的测试时计算扩展听觉认知
Scaling Auditory Cognition via Test-Time Compute in Audio Language Models
作者: Ting Dang, Yan Gao, Hong Jia
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23395v1

摘要

arXiv:2503.23395v1 宣告类型: cross 摘要:大型语言模型(LLMs)在自然语言处理任务中展现了非凡的灵活性,促使最近努力通过开发音频大型语言模型(Audio LLMs)将它们的多模态能力扩展到语音处理。尽管Audio LLMs在语音识别和合成任务中表现出色,但它们在面对真实世界环境中提出的听觉认知挑战,如听觉理解、听觉回忆等,尤其是在存在背景噪音或重叠语音的情况下,其性能尚不清楚。不同于具有大量文本数据进行预训练和重新训练的文本基于LLMs,由于模拟真实世界听觉认知场景的有限数据集以及训练过程中的听觉认知标签获取难题,Audio LLMs重新训练难度较大。虽然测试时计算(TTC)方法已被证明可以增强文本基于LLMs的推理能力,但一个关键挑战在于设计这些TTC方法来提升Audio LLMs的听觉能力。本研究旨在通过以下方式解决这两个研究空白:(i)探索Audio LLMs的听觉认知能力,(ii)使用TTC方法提升其能力。我们使用一个自收集数据库对五种不同的Audio LLMs进行了听觉认知研究,并提出了五种TTC方法以增强推理过程中的听觉认知能力。我们的发现表明,Audio LLMs在更复杂的听觉认知任务中的性能降低。我们提出的方法显著增强了听觉认知能力,促进了更适合实际应用,如助听设备、基于语音的AI助手和通信技术的更适应性和抗压性Audio LLMs的发展。