LLM2D
MusicLIME:可解释的多模态音乐理解
MusicLIME: Explainable Multimodal Music Understanding
作者: Theodoros Sotirou, Vassilis Lyberatos, Orfeas Menis Mastromichalakis, Giorgos Stamou
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2409.10496v4

摘要

arXiv:2409.10496v4 Announce 类型: replace-cross 摘要:多模态模型对于音乐理解任务至关重要,因为它们能够捕捉音频和歌词之间复杂的交互作用。然而,随着这些模型的日益普及,其可解释性的需求也随之增加——理解这些系统如何做出决策对于确保公平性、减少偏见并促进信任至关重要。在本文中,我们介绍了一种名为 MusicLIME 的模型无偏差特征重要性解释方法,该方法专为多模态音乐模型设计。与传统的一模态方法不同,后者各自分析每种模态而忽略它们之间的交互作用,往往导致解释不完整或具有误导性,MusicLIME 揭示了音频和歌词特征如何相互作用并为预测做出贡献,提供了一个涵盖模型决策过程的整体视角。此外,我们通过将局部解释聚合为全局解释来增强局部解释,给用户提供了更全面的模型行为视角。通过这项工作,我们旨在提高多模态音乐模型的可解释性,使用户能够做出明智的选择,并促进更加公平、公正和透明的音乐理解系统。