摘要
arXiv:2502.01785v1 宣告类型: cross
摘要: 水生生物多样性的保护对于缓解气候变化至关重要。水下场景理解在辅助海洋科学家进行决策过程中发挥着关键作用。在本文中,我们介绍了AquaticCLIP,这是一种针对水下场景理解的新颖对比语言-图像预训练模型。AquaticCLIP 提出了一种新的无监督学习框架,可以在水下环境中对齐图像和文本,从而实现分割、分类、检测和计数等任务。通过利用大型水下图像-文本配对数据集,而无需地面真值注释,我们的模型在水生领域丰富了现有的视觉-语言模型。为此,我们使用YouTube、Netflix、NatGeo等异质资源构建了一个包含200万水下图像-文本配对的数据集。为了微调AquaticCLIP,我们提出了一个受提示引导的视觉编码器,该编码器通过可学习的提示逐级聚合 patches 特征,同时一种视觉引导机制通过整合视觉上下文增强语言编码器。该模型通过对比预训练损失进行优化,以对齐视觉和文本模态。在多种水下计算机视觉任务的零样本设置中,AquaticCLIP 实现了显著的性能提升,在鲁棒性和可解释性方面优于现有方法。我们的模型为水下环境中的视觉-语言应用设定了新的基准。AquaticCLIP 的代码和数据集已在GitHub上公开,网址为xxx。