摘要
arXiv:2505.06694v1 分类: cross
摘要:声纳图像下的水下物体检测已成为海洋技术领域中一个关键且迅速发展的研究领域。然而,声纳图像的特点是分辨率较低、特征稀疏,与光学图像相比,这严重影响了物体检测的性能。为应对这些挑战,我们特别提出了一种名为NAS-DETR的检测变换器(DETR)架构,该架构结合了神经架构搜索(NAS)方法来优化声纳图像中的物体检测。首先,基于最大熵原则提出了一种改进的零样本神经架构搜索(NAS)方法,以确定适用于声纳图像检测的实时高性能CNN-Transformer主干。该方法使高效发现高性能网络架构成为可能,同时具有较低的计算和时间开销。随后,将主干与特征金字塔网络(FPN)和基于可变形注意力的Transformer解码器结合,构建了一个完整的网络架构。该架构结合了各种先进的组件和训练方案,以增强整体性能。广泛的实验表明,该架构在两个代表性数据集上实现了最先进的性能,同时保持了实时效率和计算复杂度的最小开销。此外,进行了关键参数与以差异熵为基础的适应函数之间的相关性分析,以提高所提框架的可解释性。据我们所知,这是第一个将DETR架构与NAS搜索机制结合在水下物体检测领域的研究工作。