LLM2D
通过重新标记蒸馏解释深度网络的预测
Interpret the Predictions of Deep Networks via Re-Label Distillation
发布日期: 9/23/2024
arXiv ID: oai:arXiv.org:2409.13137v1

摘要

arXiv:2409.13137v1 公告类型: 交叉 摘要: 解释黑箱深度网络的预测结果可以提高其部署的可靠性。在本研究中,我们提出了一种重新标注蒸馏方法,以自监督的方式学习从输入到预测的直接映射。图像被投影到VAE子空间中,通过随机扰动其潜在向量生成一些合成图像。然后,这些合成图像可以通过识别其标签是否发生变化而被标注为两个类别之一。之后,使用深度网络标注的标签作为教师,训练一个线性学生模型,通过将这些合成图像映射到类别来近似这些标注。通过这种方式,这些重新标注的合成图像能够很好地描述深度网络的局部分类机制,而学习到的学生模型能够提供对预测结果更为直观的解释。广泛的实验从定性和定量两方面验证了我们方法的有效性。