LLM2D
基于聚集SHAP值安全地丢弃特征的方法
How to safely discard features based on aggregate SHAP values
作者: Robi Bhattacharjee, Karolin Frohnapfel, Ulrike von Luxburg
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23111v1

摘要

arXiv:2503.23111v1 宣告类型: cross 摘要: SHAP 是最受欢迎的局部特征归因方法之一。给定一个函数 \(f\) 和一个输入 \(x\),它计算每个特征对 \(f(x)\) 的贡献。最近,SHAP 被越来越多地用于全局洞察:从业者平均每个数据点的绝对 SHAP 值来计算全局特征的重要性得分,然后使用这些得分来删除不重要特征。在这项工作中,我们通过询问一个小的聚合 SHAP 值是否一定意味着对应的特征不影响函数的功能,来调查这种做法的合理性。不幸的是,答案是否定的:即使第 \(i\) 个 SHAP 值在整个数据支持上都是 0,仍然存在函数显而易见地依赖于特征 \(i\)。问题在于计算 SHAP 值涉及在数据支持之外的点上评估 \(f\),而这些点上的 \(f\) 可以被精心设计以掩盖其对特征 \(i\) 的依赖性。为了应对这一问题,我们提议在扩展支持上聚合 SHAP 值,该扩展支持是底层分布的边际的乘积。通过这一修改,我们表明一个小的聚合 SHAP 值意味着我们可以安全地删除对应的特征。然后我们将结果扩展到 KernelSHAP,这是实践中最流行的方法来近似 SHAP 值。我们表明,如果在扩展分布上计算 KernelSHAP,则一个小的聚合值可以证明特征的删除是合理的。这个结果与 KernelSHAP 是否准确近似真实 SHAP 值无关,使其成为第一个表征 KernelSHAP 算法本身的理论结果之一。我们的发现具有理论和实践意义。我们引入了 Shapley 代数,它提供了代数洞察,可能有助于对 SHAP 进行更深入的研究,同时我们表明随机重新排列数据矩阵的每一列可以基于聚合 SHAP 和 KernelSHAP 值安全地删除特征。