摘要
arXiv:2410.08069v2 公告类型: replace-cross
摘要:基于梯度的解释通常需要一个比较的锚点,以避免在计算特征重要性时发生饱和。我们展示了当前使用静态函数定义的基线——常量映射、平均或模糊——注入了有害的颜色、纹理或频率假设,这些假设与模型行为相悖。这导致了不规则梯度的累积,从而使得归因图存在偏见、脆弱且可操控。我们离开了静态方法,提出了一种UNI方法,通过将输入向陡峭上升的逆向遗忘方向扰动来计算一个可学习、无偏且自适应的基线。我们的方法发现了可靠的基础线,并成功消除了显着特征,进而局部平滑了高曲率的决策边界。我们的分析表明,逆向遗忘可能是生成忠实、高效和鲁棒解释的一个有希望的途径。