LLM2D
基于直觉比较视觉变换器与卷积神经网络在遥感图像语义分割中的性能
Heuristical Comparison of Vision Transformers Against Convolutional Neural Networks for Semantic Segmentation on Remote Sensing Imagery
作者: Ashim Dahal, Saydul Akbar Murad, Nick Rahimi
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2411.09101v2

摘要

arXiv:2411.09101v2 宣告类型: replace-cross 摘要:视觉变换器(Vision Transformers,简称ViT)最近在计算机视觉领域带来了新的研究浪潮。这些模型在图像分类和分割任务中表现尤为出色。随着新架构的引入,关于语义和实例分割的研究也取得了加速发展,目前iSAID数据集中排名前20的基准中,超过80%的模型采用了ViT架构或其背后的注意力机制。本文着重研究了在遥感航空图像的语义分割上使用(或不使用)ViT的三个关键因素的启发式比较,这些研究是在iSAID数据集上进行的。实验结果分析基于三个目标进行。首先,我们研究了使用加权融合损失函数,以最大化平均交并比(mIoU)和Dice分数,同时最小化熵或类别表示损失。第二,我们比较了基于ViT的语义分割模型Meta的MaskFormer与基于通用UNet卷积神经网络(CNN)的模型在mIoU、Dice分数、训练效率和推理时间方面的表现。第三,我们探讨了这两种模型在与当前最先进的分割模型比较时的权衡。结果显示,新颖的加权融合损失函数显著提升了CNN模型的性能,超过了采用ViT进行迁移学习的效果。该实现的代码可以在以下网址找到:https://github.com/ashimdahal/ViT-vs-CNN-Image-Segmentation。