摘要
arXiv:2505.03054v2 宣告类型: 替换
摘要:开发能够理解多样化的语音互动的大规模音频语言模型(LMs)对于适应人类交流的多模态性质至关重要,这可以增加语言技术在不同用户群体中的可访问性。最近针对音频LMs的工作主要评估了它们在通常少于30秒的短暂音频片段上的性能,而对更接近自然用户与这些模型交互的长形式对话语音片段进行了有限的研究。我们引入了布署性长音频基准(BLAB),这是一个具有挑战性的长格式音频基准,使用平均51分钟长度的音频片段来评估音频LMs在定位、时长估计、情绪和计数任务上的表现。BLAB包含了833多个小时的多样的全长音频片段,每个片段都配有人工标注的基于文本的自然语言问题和答案。我们的音频数据来自宽容许可的来源,并经过了人工辅助的过滤过程以确保任务合规性。我们对六个开源和专有音频LMs进行了BLAB的评估,并发现所有这些模型,包括高级模型如Gemini 2.0 Pro和GPT-4o,在BLAB的任务中都表现不佳。我们的全面分析揭示了任务难度与音频时长之间的权衡关键洞察。总的来说,我们发现音频LMs在长形式的语音中表现出困难,随着时长的增加,其性能下降。他们在定位、时间推理和计数任务上表现不佳,难以理解非音位信息,并更多依赖提示而不是音频内容。BLAB作为一个具有挑战性的评估框架,用于开发具有稳健长格式音频理解能力的音频LMs。