LLM2D

摘要

arXiv:2402.01408v3 宣布类型: replace-cross 摘要：当前的深度学习模型并未被设计为同时解决三个基本问题：预测类别标签以解决给定的分类任务（“什么？”）、模拟情况的变化以评估这对类别预测产生了怎样的影响（“如何？”），以及设想如何改变场景以导致不同的类别预测（“为什么不这样？”）。无法回答这些问题代表了一个实施可靠AI代理、校准人类信任和改进人机交互的关键缺口。为了解决这一问题，我们引入了反事实概念瓶颈模型(CF-CBMs)，这是一种旨在一次性高效解决上述问题的模型，无需进行事后搜索。我们的实验结果表明，CF-CBMs：在分类准确性方面与黑盒模型和现有CBMs相当（“什么？”）、依赖较少的重要概念从而提供更简单的解释（“如何？”），并且产生可解释性、基于概念的反事实（“为什么不这样？”）。此外，我们展示了与CBM联合训练反事实生成器的两个关键改进：（i）它改变了模型的决策过程，使模型依赖较少的重要概念（从而提供更简单的解释），以及（ii）它显著增加了概念干预对类别预测因果效应，使模型对这些变化更加敏感。