LLM2D

摘要

arXiv:2502.04476v1 类别：交叉学科摘要：理解并解释音频录音之间的差异对于音频鉴证、质量评估和音频生成等领域至关重要。这涉及到识别和描述音频事件、声学场景、信号特征及其对聆听者的情感影响。本文是第一篇全面研究解释音频差异任务并提出基准及基线的工作。首先，我们从AudioCaps和Clotho音频描述数据集中衍生出两个新的音频差异解释数据集。使用大型语言模型（LLMs），我们生成了三个级别的差异解释：（1）简洁的音频事件和对象描述，（2）简短的关于音频事件、声学场景和信号特征的句子，以及（3）全面的解释，包括语义和聆听者的情感。基线部分，我们使用前缀调整方法，其中来自两段音频文件的嵌入用于提示冻结的语言模型。我们通过实验分析和消融研究发现，朴素的基线难以区分感知上相似的声音并生成详细的第3级解释。为解决这些问题，我们提出了ADIFF，引入了跨投影模块、位置描述和三步训练过程，以增强模型生成详细解释的能力。我们使用客观指标和人工评估来评估我们的模型，并展示我们的模型改进在性能上比朴素基线和最先进的音频-语言模型（ALM）Qwen Audio有了显著的提升。最后，我们进行了多个消融研究，以研究跨投影、语言模型参数、位置描述、第三阶段微调的影响，并展示了我们的发现。我们的基准、发现以及强大的基线为更精致和人性化的音频差异解释铺平了道路。