摘要
arXiv:2404.14394v2 公告类型: 重置
摘要: 本文描述了MAIA,一个多模态自动可解释性代理。MAIA是一个系统,使用神经模型来自动化神经模型理解任务,如特征解释和故障模式发现。它为预训练的视觉-语言模型配备了工具,这些工具支持对其他模型的子组件进行迭代实验,以解释其行为。这些工具包括人类可解释性研究人员常用的工具:用于合成和编辑输入,从实际数据集计算激活程度最大的示例,以及总结和描述实验结果。MAIA提出的可解释性实验将这些工具组合起来,以描述和解释系统行为。我们评估了MAIA在计算机视觉模型中的应用。首先,我们分析了MAIA描述图像学习表示中(神经元级)特征的能力。在几个训练模型以及一个具有配对真实描述的合成视觉神经元新型数据集中,MAIA生成的描述与专家人类实验者的生成描述相当。然后,我们展示了MAIA在两个额外的可解释性任务中提供帮助的能力:减少对虚假特征的敏感性,并自动识别可能被误分类的输入。