LLM2D
部分之和:对特征组的忠实归因
Sum-of-Parts: Faithful Attributions for Groups of Features
作者: Weiqiu You, Helen Qu, Marco Gatti, Bhuvnesh Jain, Eric Wong
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2310.16316v2

摘要

特征归因通过为输入特征分配重要性分数来解释机器学习预测。虽然忠实的归因准确地反映了特征对模型预测的贡献,但失真的归因会导致误导性的解释,使其在高风险领域不可靠。事后归因不忠实性的挑战导致了自解释模型的开发。然而,自解释模型通常在性能和可解释性之间进行权衡。在这项工作中,我们开发了 Sum-of-Parts (SOP),这是一个新的框架,它将任何可微模型转换为自解释模型,其预测可以归因于特征组。SOP 框架利用预训练的深度学习模型,并配备自定义注意力模块,以端到端学习有用的特征组,无需直接监督。凭借这些功能,SOP 在 ImageNet 和 CosmoGrid 上都实现了最高性能,同时在忠实度指标方面也获得了高分。我们通过 SOP 学习的组的高纯度、强大的区分能力和在科学发现中的实用性来验证其有用性。在一个案例研究中,我们展示了 SOP 如何帮助宇宙学家发现关于星系形成的新见解。