LLM2D

摘要

arXiv:2503.23111v1 宣告类型: cross 摘要: SHAP 是最受欢迎的局部特征归因方法之一。给定一个函数 \(f\) 和一个输入 \(x\)，它计算每个特征对 \(f(x)\) 的贡献。最近，SHAP 被越来越多地用于全局洞察：从业者平均每个数据点的绝对 SHAP 值来计算全局特征的重要性得分，然后使用这些得分来删除不重要特征。在这项工作中，我们通过询问一个小的聚合 SHAP 值是否一定意味着对应的特征不影响函数的功能，来调查这种做法的合理性。不幸的是，答案是否定的：即使第 \(i\) 个 SHAP 值在整个数据支持上都是 0，仍然存在函数显而易见地依赖于特征 \(i\)。问题在于计算 SHAP 值涉及在数据支持之外的点上评估 \(f\)，而这些点上的 \(f\) 可以被精心设计以掩盖其对特征 \(i\) 的依赖性。为了应对这一问题，我们提议在扩展支持上聚合 SHAP 值，该扩展支持是底层分布的边际的乘积。通过这一修改，我们表明一个小的聚合 SHAP 值意味着我们可以安全地删除对应的特征。然后我们将结果扩展到 KernelSHAP，这是实践中最流行的方法来近似 SHAP 值。我们表明，如果在扩展分布上计算 KernelSHAP，则一个小的聚合值可以证明特征的删除是合理的。这个结果与 KernelSHAP 是否准确近似真实 SHAP 值无关，使其成为第一个表征 KernelSHAP 算法本身的理论结果之一。我们的发现具有理论和实践意义。我们引入了 Shapley 代数，它提供了代数洞察，可能有助于对 SHAP 进行更深入的研究，同时我们表明随机重新排列数据矩阵的每一列可以基于聚合 SHAP 和 KernelSHAP 值安全地删除特征。