摘要
本文旨在填补可解释人工智能领域的一个重要空白:解释模型解释中的认知不确定性。虽然现有方法主要关注解释预测,其中一些方法包含不确定性,但它们未能提供关于如何减少这些预测中固有不确定性的指导。为了克服这一挑战,我们引入了专门针对认知不确定性的新型解释。这些解释包括确保解释,它突出显示可以减少不确定性的特征修改,以及不确定性解释的分类 - 反潜在、半潜在和超潜在,它们探索了替代场景。我们的工作强调,认知不确定性为解释质量增添了至关重要的维度,要求评估不仅基于预测概率,还基于不确定性降低。我们引入了一个新的指标,确保排名,旨在通过平衡不确定性、概率和竞争性替代解释之间的权衡,帮助用户识别最可靠的解释。此外,我们扩展了校准解释方法,加入了可视化特征值变化如何影响认知不确定性的工具。此增强功能提供了对模型行为的更深入见解,促进了可解释性的提高,并在涉及不确定预测的场景中建立了适当的信任。