LLM2D

摘要

arXiv:2504.10833v1 交叉类型公告摘要：后验、无监督的概念基础解释方法（U-CBEMs）是生成深度神经网络决策过程语义解释的有前景工具，可应用于模型改进和理解。解释必须忠实于模型，这是至关重要的，但我们发现先前的忠实度度量存在一些限制，这些限制阻碍了准确评估；最显著的是，先前的度量只考虑了存在的概念集，而没有考虑到这些概念的空间分布情况。我们通过引入一种具有空间意识的替代模型和两个新的忠实度度量来解决这些限制，称为Surrogate Faithfulness（SF）评价方法。使用SF，我们生成了Optimally Faithful（OF）解释，其中寻找最大化忠实度的概念。我们的实验表明：（1）将空间意识添加到先前的U-CBEMs中，在所有情况下都能提高忠实度；（2）OF相比先前的U-CBEMs产生了显著更为忠实的解释（错误率提高了30%或更高）；（3）OF学习的概念在目标外数据上泛化良好，并且对于对抗性示例更具鲁棒性，而先前的U-CBEMs则难以应对。