LLM2D

摘要

arXiv:2502.01785v1 类型: cross 摘要: 保护水生生物多样性对于减轻气候变化的影响至关重要。水生场景理解在辅助海洋科学家进行决策过程中扮演着关键角色。本文介绍了AquaticCLIP，这是一种专为水生场景理解设计的新颖对比语言-图像预训练模型。AquaticCLIP 提出了一个新的无监督学习框架，该框架在水生环境中对齐图像和文本，从而实现诸如分割、分类、检测和物体计数等任务。通过利用大型的无监督水下图像-文本配对数据集，而无需地面真实注释，我们的模型丰富了现有的水生领域视觉-语言模型。为此，我们利用包括 YouTube、Netflix、国家地理 (NatGeo) 等在内的异质资源，构建了一个包含 200 万水下图像-文本配对数据集。为了微调 AquaticCLIP，我们提出了一种提示引导的视觉编码器，该编码器通过可学习的提示逐步聚合补丁特征，而视觉导向的机制通过引入视觉上下文增强语言编码器。该模型通过对比预训练损失进行优化，以对齐视觉和文本模态。在多种水下计算机视觉任务的零样本设置中，AquaticCLIP 达到了显著的性能提升，并在鲁棒性和可解释性方面优于现有方法。我们的模型为水下环境中视觉-语言应用设定了新的基准。AquaticCLIP 的代码和数据集已公开发布在 GitHub 上，地址为 xxx。