LLM2D

摘要

arXiv:2504.08481v1 类型: cross 摘要: 在许多医学成像任务中，卷积神经网络（CNNs）能够有效地分层次地提取局部特征。近年来，视觉变换器（ViTs）因其使用自注意力机制来捕捉全局依赖性而受到关注，但缺乏卷积所固有的空间局部化。因此，已经开发出了将CNN和ViT相结合的混合模型，以结合这两种架构的优点。然而，这样的CNN-ViT混合模型难以解释，这妨碍了它们在医学成像中的应用。在这项工作中，我们介绍了一种由设计可解释的混合全卷积CNN-Transformer架构，用于医学图像分类。与广泛使用的后验显性方法不同，我们的方法生成了忠实且局部化的证据图，直接反映了模型的决策过程。我们在使用彩色视网膜图像的两个医学图像分类任务上评估了我们的方法。我们的模型不仅在预测性能上优于传统的黑盒模型和可解释模型，还能够在单次前向传播中提供特定类别的稀疏证据图。代码可以在 https://anonymous.4open.science/r/Expl-CNN-Transformer/ 获取。