摘要
arXiv:2405.16507v5 公告类型: replace-cross
摘要: 因果不透明性是指理解深度神经网络(DNN)模型决策背后的“隐藏”因果结构的难度。这导致在高风险场景中无法依赖和验证基于DNN的系统。因此,在深度学习、可解释性和因果性交汇点,规避DNN的因果不透明性代表了一个关键的开放挑战。本项工作通过引入因果概念图模型(Causal CGMs),一类设计上因果透明的可解释模型来填补这一空白。我们的实验表明,Causal CGMs能够:(i)与因果不透明模型的一般化性能相匹配,(ii)使人类介入纠正错误的中间推理步骤成为可能,不仅在纠正后提高下游准确性,还提高特定实例解释的可靠性,以及(iii)支持干预和反事实场景的分析,从而提高模型的因果可解释性,并支持其可靠性和公平性的有效验证。