LLM2D

摘要

arXiv:2502.12108v1 交叉公告类型：cross 摘要：集成梯度（IG），一种广泛使用的基于路径的归因方法，通过沿从基线到输入的直线路径整合模型梯度来为输入特征分配重要性评分。虽然在某些情况下效果良好，但我们展示了直线路径会导致不正确的归因。在本文中，我们确定了这些错误归因的原因，并提出了一种替代方法，将输入空间视为黎曼流形，并通过沿测地线整合梯度来计算归因。我们称这种方法为测地线集成梯度（GIG）。为了近似测地线路径，我们介绍了两种技术：对于较小的模型，采用基于k-最近邻的方法；对于较大的模型，采用基于随机变分推理的方法。此外，我们提出了一种新的公理，即强完备性，扩展了IG所满足的公理。我们展示了这种性质对于归因方法是可取的，并且GIG是唯一满足这种性质的方法。通过在合成数据和真实世界数据上的实验，我们证明了GIG优于现有的可解释性方法，包括IG。