LLM2D

摘要

特征归因通过为输入特征分配重要性分数来解释机器学习预测。虽然忠实的归因准确地反映了特征对模型预测的贡献，但失真的归因会导致误导性的解释，使其在高风险领域不可靠。事后归因不忠实性的挑战导致了自解释模型的开发。然而，自解释模型通常在性能和可解释性之间进行权衡。在这项工作中，我们开发了 Sum-of-Parts (SOP)，这是一个新的框架，它将任何可微模型转换为自解释模型，其预测可以归因于特征组。SOP 框架利用预训练的深度学习模型，并配备自定义注意力模块，以端到端学习有用的特征组，无需直接监督。凭借这些功能，SOP 在 ImageNet 和 CosmoGrid 上都实现了最高性能，同时在忠实度指标方面也获得了高分。我们通过 SOP 学习的组的高纯度、强大的区分能力和在科学发现中的实用性来验证其有用性。在一个案例研究中，我们展示了 SOP 如何帮助宇宙学家发现关于星系形成的新见解。