摘要
arXiv:2502.00459v1 Announce Type: cross
摘要:文本到音频生成模型(TAG)在根据文本描述生成音频方面取得了显著进展。然而,在每个文本输入如何影响生成的音频方面,缺乏透明度是一个关键挑战。为了解决这一问题,我们引入了AudioGenX,这是一种可解释AI(XAI)方法,通过突出显示输入标记的重要性来为文本到音频生成模型提供解释。AudioGenX通过利用事实性和反事实目标函数来优化解释器,在音频标记级别提供忠实的解释。该方法提供了文本输入与音频输出之间详细且全面的关系理解,增强了TAG模型的可解释性和可信度。广泛的实验表明,AudioGenX在生产忠实解释方面非常有效,这是通过使用专门为音频生成任务设计的新颖评估指标与现有方法进行基准测试得出的结论。