LLM2D

摘要

arXiv:2505.08345v1 类型: cross 摘要: 基于局部特征的解释是XAI工具箱中的关键组成部分。这些解释计算相对于“可解释”特征表示的特征重要性值。在表格数据中，特征值本身往往被视为可解释的。本文研究了数据工程选择对基于局部特征的解释的影响。我们证明，像用直方图表示年龄或以特定方式编码种族这样简单的、常见的数据工程技术，可以操控由受欢迎的方法（如SHAP）确定的特征重要性。值得注意的是，解释对特征表示的敏感性可能被对手利用来模糊诸如歧视之类的问题。尽管这些结果背后的直觉很简单，但其系统的探索一直不足。以前的工作主要集中在通过偏向数据或操控模型来进行特征解释的对抗攻击。就我们所知，这是首次证明标准、看似无害的数据工程技术可以误导解释器的研究。