摘要
arXiv:2402.01408v3 宣布类型: replace-cross
摘要:当前的深度学习模型并未被设计为同时解决三个基本问题:预测类别标签以解决给定的分类任务(“什么?”)、模拟情况的变化以评估这对类别预测产生了怎样的影响(“如何?”),以及设想如何改变场景以导致不同的类别预测(“为什么不这样?”)。无法回答这些问题代表了一个实施可靠AI代理、校准人类信任和改进人机交互的关键缺口。为了解决这一问题,我们引入了反事实概念瓶颈模型(CF-CBMs),这是一种旨在一次性高效解决上述问题的模型,无需进行事后搜索。我们的实验结果表明,CF-CBMs:在分类准确性方面与黑盒模型和现有CBMs相当(“什么?”)、依赖较少的重要概念从而提供更简单的解释(“如何?”),并且产生可解释性、基于概念的反事实(“为什么不这样?”)。此外,我们展示了与CBM联合训练反事实生成器的两个关键改进:(i)它改变了模型的决策过程,使模型依赖较少的重要概念(从而提供更简单的解释),以及(ii)它显著增加了概念干预对类别预测因果效应,使模型对这些变化更加敏感。