LLM2D

摘要

arXiv:2410.08069v2 公告类型: replace-cross 摘要：基于梯度的解释通常需要一个比较的锚点，以避免在计算特征重要性时发生饱和。我们展示了当前使用静态函数定义的基线——常量映射、平均或模糊——注入了有害的颜色、纹理或频率假设，这些假设与模型行为相悖。这导致了不规则梯度的累积，从而使得归因图存在偏见、脆弱且可操控。我们离开了静态方法，提出了一种UNI方法，通过将输入向陡峭上升的逆向遗忘方向扰动来计算一个可学习、无偏且自适应的基线。我们的方法发现了可靠的基础线，并成功消除了显着特征，进而局部平滑了高曲率的决策边界。我们的分析表明，逆向遗忘可能是生成忠实、高效和鲁棒解释的一个有希望的途径。