LLM2D

摘要

arXiv:2405.16507v5 公告类型: replace-cross 摘要: 因果不透明性是指理解深度神经网络（DNN）模型决策背后的“隐藏”因果结构的难度。这导致在高风险场景中无法依赖和验证基于DNN的系统。因此，在深度学习、可解释性和因果性交汇点，规避DNN的因果不透明性代表了一个关键的开放挑战。本项工作通过引入因果概念图模型（Causal CGMs），一类设计上因果透明的可解释模型来填补这一空白。我们的实验表明，Causal CGMs能够：（i）与因果不透明模型的一般化性能相匹配，（ii）使人类介入纠正错误的中间推理步骤成为可能，不仅在纠正后提高下游准确性，还提高特定实例解释的可靠性，以及（iii）支持干预和反事实场景的分析，从而提高模型的因果可解释性，并支持其可靠性和公平性的有效验证。