LLM2D

摘要

arXiv:2502.01785v1 宣告类型: cross 摘要: 水生生物多样性的保护对于缓解气候变化至关重要。水下场景理解在辅助海洋科学家进行决策过程中发挥着关键作用。在本文中，我们介绍了AquaticCLIP，这是一种针对水下场景理解的新颖对比语言-图像预训练模型。AquaticCLIP 提出了一种新的无监督学习框架，可以在水下环境中对齐图像和文本，从而实现分割、分类、检测和计数等任务。通过利用大型水下图像-文本配对数据集，而无需地面真值注释，我们的模型在水生领域丰富了现有的视觉-语言模型。为此，我们使用YouTube、Netflix、NatGeo等异质资源构建了一个包含200万水下图像-文本配对的数据集。为了微调AquaticCLIP，我们提出了一个受提示引导的视觉编码器，该编码器通过可学习的提示逐级聚合 patches 特征，同时一种视觉引导机制通过整合视觉上下文增强语言编码器。该模型通过对比预训练损失进行优化，以对齐视觉和文本模态。在多种水下计算机视觉任务的零样本设置中，AquaticCLIP 实现了显著的性能提升，在鲁棒性和可解释性方面优于现有方法。我们的模型为水下环境中的视觉-语言应用设定了新的基准。AquaticCLIP 的代码和数据集已在GitHub上公开，网址为xxx。