LLM2D

摘要

arXiv:2505.02435v1 交叉公告类型：counterfactual 摘要：反事实解释通过识别产生不同输出的替代输入来增强可解释性，提供对模型决策的局部洞察。然而，传统方法往往忽视了因果关系，导致不切实际的例子。尽管新的方法集成了因果关系，但它们在计算上代价高昂。为了应对这些挑战，我们提出了一种基于反向追踪反事实的方法，该方法结合因果推理以生成可操作的解释。我们首先探讨了现有方法的限制，然后介绍了我们的创新方法及其特性。我们还探讨了我们的方法与先前技术之间的关系，证明了它在特定场景下概括了它们。最后，实验显示，我们的方法能够提供对模型输出的更深层次的洞察。