LLM2D
基于退学习的神经解释
Unlearning-based Neural Interpretations
作者: Ching Lam Choi, Alexandre Duplessis, Serge Belongie
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2410.08069v2

摘要

arXiv:2410.08069v2 公告类型: replace-cross 摘要:基于梯度的解释通常需要一个比较的锚点,以避免在计算特征重要性时发生饱和。我们展示了当前使用静态函数定义的基线——常量映射、平均或模糊——注入了有害的颜色、纹理或频率假设,这些假设与模型行为相悖。这导致了不规则梯度的累积,从而使得归因图存在偏见、脆弱且可操控。我们离开了静态方法,提出了一种UNI方法,通过将输入向陡峭上升的逆向遗忘方向扰动来计算一个可学习、无偏且自适应的基线。我们的方法发现了可靠的基础线,并成功消除了显着特征,进而局部平滑了高曲率的决策边界。我们的分析表明,逆向遗忘可能是生成忠实、高效和鲁棒解释的一个有希望的途径。