摘要
arXiv:2502.00459v2 Announce Type: replace-cross
摘要:文本到音频生成模型(TAG)在根据文本描述生成音频方面取得了显著进展。然而,一个关键挑战在于缺乏关于每个文本输入如何影响生成音频的透明度。为了应对这一问题,我们提出了AudioGenX,这是一种可解释人工智能(XAI)方法,通过突出显示输入词的重要性来为文本到音频生成模型提供解释。AudioGenX 通过结合事实和反事实目标函数来优化解释器,在音频 token 层面上提供忠实的解释。该方法提供了文本输入和音频输出之间关系的详细和全面理解,从而增强 TAG 模型的可解释性和可信度。广泛的实验验证了 AudioGenX 在生成忠实解释方面的有效性,并使用专门为音频生成任务设计的新颖评估指标与现有方法进行了基准测试。