摘要
arXiv:2409.10496v4 Announce 类型: replace-cross
摘要:多模态模型对于音乐理解任务至关重要,因为它们能够捕捉音频和歌词之间复杂的交互作用。然而,随着这些模型的日益普及,其可解释性的需求也随之增加——理解这些系统如何做出决策对于确保公平性、减少偏见并促进信任至关重要。在本文中,我们介绍了一种名为 MusicLIME 的模型无偏差特征重要性解释方法,该方法专为多模态音乐模型设计。与传统的一模态方法不同,后者各自分析每种模态而忽略它们之间的交互作用,往往导致解释不完整或具有误导性,MusicLIME 揭示了音频和歌词特征如何相互作用并为预测做出贡献,提供了一个涵盖模型决策过程的整体视角。此外,我们通过将局部解释聚合为全局解释来增强局部解释,给用户提供了更全面的模型行为视角。通过这项工作,我们旨在提高多模态音乐模型的可解释性,使用户能够做出明智的选择,并促进更加公平、公正和透明的音乐理解系统。