LLM2D

摘要

arXiv:2501.15638v2 公告类型: replace-cross 摘要：神经网络在各个领域都取得了显著的成功。然而，缺乏可解释性限制了它们的实际应用，特别是在关键决策场景中。事后可解释性为预训练模型提供了解释，但经常存在鲁棒性和准确性的问题。这激发了对自解释性神经网络的兴趣，这些网络通过模型结构本身固有的方式揭示预测理由。尽管已经有关于事后可解释性的综述，但关于自解释性神经网络的全面和系统的综述仍然缺失。为了弥补这一空白，我们首先收集并回顾了现有的自解释性神经网络工作，并从五个关键视角提供了方法论的结构化总结：基于归因的自解释、基于功能的自解释、基于概念的自解释、基于原型的自解释和基于规则的自解释。我们还提出了模型解释的具体可视化示例，并讨论了它们在各种场景中的适用性，包括图像、文本、图数据和深度强化学习。此外，我们总结了现有的自解释性评估指标，并指出了该领域存在的开放挑战，为未来的研究提供了洞察。为了支持持续的发展，我们提供了一个公开访问的资源，以追踪该领域的进展：https://github.com/yangji721/Awesome-Self-Interpretable-Neural-Network。