摘要
近年来,各种音频大型语言模型 (ALLM) 被探索用于使用单个统一模型同时解决不同的音频任务。虽然现有的 ALLM 评估主要集中在单音频任务上,但现实世界中的应用通常涉及同时处理多个音频流。为了弥合这一差距,我们提出了第一个多音频评估 (MAE) 基准,该基准包含来自 11 个多音频任务的 20 个数据集,涵盖语音和声音场景。MAE 上的综合实验表明,现有的 ALLM 虽然在理解单个音频输入中的主要音频元素方面功能强大,但在处理多音频场景方面却很吃力。为此,我们提出了一种新型的多音频大型语言模型 (MALLM),通过在我们提出的合成数据上进行判别学习来捕获多个相似音频之间的音频上下文。结果表明,所提出的 MALLM 优于所有基线,并且在不依赖人工标注的情况下使用合成数据实现了高数据效率。所提出的 MALLM 为 ALLM 开启了迈向多音频处理时代的大门,让我们更接近于在机器中复制人类的听觉能力。