LLM2D
水下CLIP:一种水下场景分析的视觉-语言基础模型
AquaticCLIP: A Vision-Language Foundation Model for Underwater Scene Analysis
作者: Basit Alawode, Iyyakutti Iyappan Ganapathi, Sajid Javed, Naoufel Werghi, Mohammed Bennamoun, Arif Mahmood
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.01785v1

摘要

arXiv:2502.01785v1 类型: cross 摘要: 保护水生生物多样性对于减轻气候变化的影响至关重要。水生场景理解在辅助海洋科学家进行决策过程中扮演着关键角色。本文介绍了AquaticCLIP,这是一种专为水生场景理解设计的新颖对比语言-图像预训练模型。AquaticCLIP 提出了一个新的无监督学习框架,该框架在水生环境中对齐图像和文本,从而实现诸如分割、分类、检测和物体计数等任务。通过利用大型的无监督水下图像-文本配对数据集,而无需地面真实注释,我们的模型丰富了现有的水生领域视觉-语言模型。为此,我们利用包括 YouTube、Netflix、国家地理 (NatGeo) 等在内的异质资源,构建了一个包含 200 万水下图像-文本配对数据集。为了微调 AquaticCLIP,我们提出了一种提示引导的视觉编码器,该编码器通过可学习的提示逐步聚合补丁特征,而视觉导向的机制通过引入视觉上下文增强语言编码器。该模型通过对比预训练损失进行优化,以对齐视觉和文本模态。在多种水下计算机视觉任务的零样本设置中,AquaticCLIP 达到了显著的性能提升,并在鲁棒性和可解释性方面优于现有方法。我们的模型为水下环境中视觉-语言应用设定了新的基准。AquaticCLIP 的代码和数据集已公开发布在 GitHub 上,地址为 xxx。