LLM2D

摘要

随着复杂的机器学习模型在高风险决策场景中不断得到应用，解释和理解它们的预测至关重要。事后解释方法通过识别输入 $\mathbf{x}$ 中相对于模型输出 $f(\mathbf{x})$ 的重要特征，提供了有用的见解。在本工作中，我们对一般机器学习模型的两个精确的特征重要性概念进行了形式化和研究：充分性和必要性。我们证明了，尽管这两种类型的解释直观且简单，但在提供模型认为重要的特征的完整图景方面可能存在不足。为此，我们提出了一种统一的重要性概念，通过探索沿着必要性-充分性轴的连续统一体来避免这些限制。我们证明，我们的统一概念与其他流行的特征重要性定义有着密切的联系，例如基于条件独立和博弈论量（如 Shapley 值）的定义。至关重要的是，我们证明了统一的视角如何让我们检测到仅通过之前的任何一种方法都可能遗漏的重要特征。