LLM2D
一种新的回溯反事实解释方法:一种高效的模型可解释性的因果框架
A New Approach to Backtracking Counterfactual Explanations: A Causal Framework for Efficient Model Interpretability
作者: Pouria Fatemi, Ehsan Sharifian, Mohammad Hossein Yassaee
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.02435v1

摘要

arXiv:2505.02435v1 交叉公告类型:counterfactual 摘要:反事实解释通过识别产生不同输出的替代输入来增强可解释性,提供对模型决策的局部洞察。然而,传统方法往往忽视了因果关系,导致不切实际的例子。尽管新的方法集成了因果关系,但它们在计算上代价高昂。为了应对这些挑战,我们提出了一种基于反向追踪反事实的方法,该方法结合因果推理以生成可操作的解释。我们首先探讨了现有方法的限制,然后介绍了我们的创新方法及其特性。我们还探讨了我们的方法与先前技术之间的关系,证明了它在特定场景下概括了它们。最后,实验显示,我们的方法能够提供对模型输出的更深层次的洞察。