LLM2D
基于生成式基础模型的音频解释合成
Audio Explanation Synthesis with Generative Foundation Models
作者: Alican Akman, Qiyang Sun, Bj\"orn W. Schuller
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.07530v1

摘要

音频基础模型在各种任务中取得的成功日益增长,这使得人们越来越需要提高可解释性,以便更好地理解其错综复杂的决策过程。现有的方法主要集中在通过根据输入空间中元素对最终决策的影响来确定其重要性,从而解释这些模型。在本文中,我们介绍了一种新颖的音频解释方法,该方法利用了音频基础模型的生成能力。我们的方法通过整合已建立的特征归因技术来识别此空间中的重要特征,从而利用这些模型中嵌入空间的内在表示能力。然后,该方法通过优先考虑最重要的特征来生成可听的音频解释。通过对标准数据集(包括关键词识别和语音情绪识别)进行严格的基准测试,我们的模型证明了其在生成音频解释方面的有效性。