摘要
arXiv:2502.00459v2 Announce Type: cross
摘要:文本到音频生成模型(TAG)在根据文本描述生成音频方面取得了显著进展。然而,一个关键挑战在于缺乏关于每个文本输入如何影响生成音频的透明性。为解决这一问题,我们引入了AudioGenX,这是一种可解释的人工智能(XAI)方法,通过突出输入令牌的重要性为文本到音频生成模型提供解释。AudioGenX 通过利用事实和反事实目标函数来优化解释器,以在音频令牌级别提供忠实地解释。该方法提供了文本输入与音频输出之间关系的详细和全面理解,从而增强TAG模型的可解释性和可信度。广泛的实验表明,与现有方法相比,AudioGenX 在使用为音频生成任务专门设计的新评估指标进行基准测试时,在产生忠实解释方面具有有效性。