LLM2D

摘要

场景识别，尤其是针对航空和水下图像，常常受到各种类型的降质影响，如模糊或过曝。以往专注于卷积神经网络的工作已被证明能够提取全景语义特征，并在场景识别任务中表现出色。然而，低质量图像仍因不当使用高级语义特征而阻碍模型性能。为应对这些挑战，我们提出了一种自适应选择机制，以识别最重要且鲁棒的高级特征区域。因此，模型可以通过这些区域进行学习以避免干扰。我们在神经网络中实现了一个可学习的掩码，该掩码可以通过为特征矩阵的不同区域分配权重来过滤高级特征。我们还引入了一个正则化项，以进一步增强关键高级特征区域的重要性。与以往方法不同，我们的可学习矩阵额外关注对多个类别重要但可能导致误分类的区域，并设置约束以减少这些区域的影响。这是一个即插即用的架构，可以轻松扩展到其他方法。此外，我们构建了一个水下地质场景分类数据集，以评估我们模型的有效性。广泛的实验结果表明，我们提出的方法在两个数据集上优于最先进的技术，并展现出优越性和鲁棒性。