LLM2D
全面综述自解释神经网络
A Comprehensive Survey on Self-Interpretable Neural Networks
作者: Yang Ji, Ying Sun, Yuting Zhang, Zhigaoyuan Wang, Yuanxin Zhuang, Zheng Gong, Dazhong Shen, Chuan Qin, Hengshu Zhu, Hui Xiong
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2501.15638v2

摘要

arXiv:2501.15638v2 公告类型: replace-cross 摘要:神经网络在各个领域都取得了显著的成功。然而,缺乏可解释性限制了它们的实际应用,特别是在关键决策场景中。事后可解释性为预训练模型提供了解释,但经常存在鲁棒性和准确性的问题。这激发了对自解释性神经网络的兴趣,这些网络通过模型结构本身固有的方式揭示预测理由。尽管已经有关于事后可解释性的综述,但关于自解释性神经网络的全面和系统的综述仍然缺失。为了弥补这一空白,我们首先收集并回顾了现有的自解释性神经网络工作,并从五个关键视角提供了方法论的结构化总结:基于归因的自解释、基于功能的自解释、基于概念的自解释、基于原型的自解释和基于规则的自解释。我们还提出了模型解释的具体可视化示例,并讨论了它们在各种场景中的适用性,包括图像、文本、图数据和深度强化学习。此外,我们总结了现有的自解释性评估指标,并指出了该领域存在的开放挑战,为未来的研究提供了洞察。为了支持持续的发展,我们提供了一个公开访问的资源,以追踪该领域的进展:https://github.com/yangji721/Awesome-Self-Interpretable-Neural-Network。