LLM2D
基于遗忘学习的神经解释
Unlearning-based Neural Interpretations
作者: Ching Lam Choi, Alexandre Duplessis, Serge Belongie
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.08069v1

摘要

基于梯度的解释方法通常需要一个比较基点来避免在计算特征重要性时的饱和。我们发现,当前使用静态函数(常量映射、平均或模糊)定义的基线会注入有害的颜色、纹理或频率假设,这些假设偏离了模型的行为。这导致不规则梯度的累积,从而导致偏差、脆弱且可操纵的归因图。我们从静态方法出发,提出了 UNI,通过将输入扰动到最陡上升的去学习方向来计算一个(不可)学习的、无偏的和自适应的基线。我们的方法发现了可靠的基线,并成功地消除了显著特征,从而局部平滑了高曲率决策边界。我们的分析表明,去学习是生成忠实、高效和鲁棒解释的有希望途径。