LLM2D

摘要

arXiv:2409.09497v2 宣告类型: 替换-交叉摘要：原型部分学习正在成为一个有希望的方法，用于使语义分割具有可解释性。该模型选择在训练期间见过的真实片段作为原型，并基于测试图像的部分与原型之间的相似性构建密集预测图。这提高了可解释性，因为用户可以根据预测输出与模型学习模式之间的原型信息来检查这种联系。在本文中，我们提出了一种利用多尺度图像表示进行原型部分学习的方法。首先，我们引入了一个原型层，该层明确学习多种尺度的原型部分，从而在原型激活输出中产生多尺度表示。然后，我们提出了一种稀疏分组机制，生成这些特定尺度原型部分的多尺度稀疏分组。这提供了对多尺度对象表示之间相互作用的更深入理解，同时增强了分割模型的可解释性。在Pascal VOC、Cityscapes和ADE20K上的实验表明，所提出的方法增加了模型稀疏性，优于现有基于原型的方法，并且与不可解释的同类模型相比缩小了性能差距。代码可在github.com/eceo-epfl/ScaleProtoSeg 获取。