LLM2D

摘要

arXiv:2411.09101v2 宣告类型: replace-cross 摘要：视觉变换器（Vision Transformers，简称ViT）最近在计算机视觉领域带来了新的研究浪潮。这些模型在图像分类和分割任务中表现尤为出色。随着新架构的引入，关于语义和实例分割的研究也取得了加速发展，目前iSAID数据集中排名前20的基准中，超过80%的模型采用了ViT架构或其背后的注意力机制。本文着重研究了在遥感航空图像的语义分割上使用（或不使用）ViT的三个关键因素的启发式比较，这些研究是在iSAID数据集上进行的。实验结果分析基于三个目标进行。首先，我们研究了使用加权融合损失函数，以最大化平均交并比（mIoU）和Dice分数，同时最小化熵或类别表示损失。第二，我们比较了基于ViT的语义分割模型Meta的MaskFormer与基于通用UNet卷积神经网络（CNN）的模型在mIoU、Dice分数、训练效率和推理时间方面的表现。第三，我们探讨了这两种模型在与当前最先进的分割模型比较时的权衡。结果显示，新颖的加权融合损失函数显著提升了CNN模型的性能，超过了采用ViT进行迁移学习的效果。该实现的代码可以在以下网址找到：https://github.com/ashimdahal/ViT-vs-CNN-Image-Segmentation。