摘要
arXiv:2502.04476v1 类别:交叉学科
摘要:理解并解释音频录音之间的差异对于音频鉴证、质量评估和音频生成等领域至关重要。这涉及到识别和描述音频事件、声学场景、信号特征及其对聆听者的情感影响。本文是第一篇全面研究解释音频差异任务并提出基准及基线的工作。首先,我们从AudioCaps和Clotho音频描述数据集中衍生出两个新的音频差异解释数据集。使用大型语言模型(LLMs),我们生成了三个级别的差异解释:(1)简洁的音频事件和对象描述,(2)简短的关于音频事件、声学场景和信号特征的句子,以及(3)全面的解释,包括语义和聆听者的情感。基线部分,我们使用前缀调整方法,其中来自两段音频文件的嵌入用于提示冻结的语言模型。我们通过实验分析和消融研究发现,朴素的基线难以区分感知上相似的声音并生成详细的第3级解释。为解决这些问题,我们提出了ADIFF,引入了跨投影模块、位置描述和三步训练过程,以增强模型生成详细解释的能力。我们使用客观指标和人工评估来评估我们的模型,并展示我们的模型改进在性能上比朴素基线和最先进的音频-语言模型(ALM)Qwen Audio有了显著的提升。最后,我们进行了多个消融研究,以研究跨投影、语言模型参数、位置描述、第三阶段微调的影响,并展示了我们的发现。我们的基准、发现以及强大的基线为更精致和人性化的音频差异解释铺平了道路。