LLM2D

摘要

反事实解释 (CE) 识别与观测数据高度相似但产生不同机器学习 (ML) 模型输出的数据点，为模型决策提供关键见解。尽管反事实解释适用于各种场景、目标和任务，但现有的 CE 方法往往缺乏可操作的效率，因为它们在向用户和利益相关者呈现的解释中包含了不必要的特征变化。我们通过提出一种方法来解决这个问题，该方法在保持 CE 有效性的同时，最小化所需的特征变化，而不会对模型或 CE 算法（无论是基于实例的还是基于组的）施加限制。关键创新在于计算观测数据和反事实数据之间的联合分布，并利用它为特征归因 (FA) 提供 Shapley 值信息。我们证明了最优传输 (OT) 有效地推导了这种分布，尤其是在使用 CE 方法时，观测数据和反事实数据之间的对齐不明确的情况下。此外，还发现了一个反直觉的发现：在进行 FA 时，依赖于 CE 生成机制定义的精确对齐可能是误导性的。我们提出的方法在多个数据集上的大量实验中得到验证，展示了其在将 CE 细化以提高可操作效率方面的有效性。