LLM2D
用高能力反事实来解释低感知模型能力
Explaining Low Perception Model Competency with High-Competency Counterfactuals
作者: Sara Pohland, Claire Tomlin
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.05254v1

摘要

arXiv:2504.05254v1 类别: cross 摘要: 有许多方法可以解释图像分类模型是如何做出决策的,但很少有研究探索解释分类器为何对其预测缺乏信心的方法。由于分类器失去信心的原因可能有很多种,因此不仅表明其不确定性水平,还能解释其不确定性的原因将是非常有价值的。反事实图像已被用于可视化可应用于图像以生成不同分类决策的变化。在这项工作中,我们探索使用反事实图像来解释低模型能力——一种衡量信心的泛化形式——的方法。为此,我们开发了五种新颖的方法来生成高能力的反事实图像,即图像梯度下降(Image Gradient Descent, IGD)、特征梯度下降(Feature Gradient Descent, FGD)、自动编码器重构(Reco)、潜在梯度下降(Latent Gradient Descent, LGD)和潜在最近邻(Latent Nearest Neighbors, LNN)。我们在包含六个已知导致低模型能力原因的独特数据集上评估了这些方法,发现Reco、LGD和LNN是生成反事实图像最有前景的方法。我们进一步评估了这些三种方法如何可用于预训练的多模态大型语言模型(MLLMs),以生成关于低模型能力的语言解释。我们发现,在语言模型查询中加入反事实图像极大地提高了模型生成准确解释低模型能力原因的能力,从而证明了反事实图像在解释低感知模型能力方面的实用性。