LLM2D

摘要

当前深度学习模型无法同时解答三个基本问题：预测类别标签以解决给定的分类任务（“是什么？”）、模拟情境变化以评估其如何影响类别预测（“如何？”）以及设想情境应如何变化才能得出不同的类别预测（“为什么不？”）。无法解答这些问题是部署可靠AI代理、校准人类信任和改进人机交互的关键缺口。为了弥合这一差距，我们引入了反事实概念瓶颈模型（CF-CBM），这是一类旨在高效地同时解答上述所有问题而无需进行事后搜索的模型。我们的实验结果表明，CF-CBM：（1）实现了与黑盒模型和现有CBM相当的分类精度（“是什么？”）；（2）依赖较少的关键概念，从而产生更简单的解释（“如何？”）；（3）产生可解释的、基于概念的反事实（“为什么不？”）。此外，我们还表明，与CBM联合训练反事实生成器可带来两项关键改进：（i）它改变了模型的决策过程，使模型依赖更少的关键概念（从而产生更简单的解释）；（ii）它显著增加了概念干预对类别预测的因果效应，使模型对这些变化更敏感。