摘要
arXiv:2504.13787v1 类型:跨领域
摘要:稳定性保证是一种新兴的工具,用于评估特征归因,但现有的认证方法依赖于平滑分类器,经常导致保守的保证。为了解决这些局限性,我们引入了软稳定性,并提出了一种简单、模型无关且样本高效的稳定性认证算法(SCA),该算法为任何归因提供了非平凡且可解释的保证。此外,我们展示了轻微平滑可以实现精度和稳定性之间的优雅权衡,而之前的认证方法需要更加激进的妥协。利用布尔函数分析,我们给出了稳定性在平滑下的新颖表征。我们在视觉和语言任务上评估了SCA,并展示了软稳定性的有效性及其在衡量解释方法稳健性方面的应用。