摘要
arXiv:2505.07365v1 目标类型: cross
摘要: 我们介绍DCASE 2025挑战任务5:一个跨越声音理解多个领域的音频问答(AQA)基准。该任务定义了三个问答子任务(生物声学、时间声音景观和复杂问答)以测试音频语言模型在多种声场景下的交互问答能力。我们描述了数据集的组成(从海洋哺乳动物叫声到声音景观和复杂的现实世界片段),评估协议(具有答案洗牌稳健性的top-1精度),以及基础系统(Qwen2-Audio-7B、AudioFlamingo 2、Gemini-2-Flash)。在开发集上的初步结果进行了比较,显示各模型和子任务之间存在显著差异。这项挑战旨在推进音频理解与推理能力,使其达到人类水平的敏锐度,这对于使AI代理能够有效地感知和交互于世界至关重要。