LLM2D
Set-CLIP:通过分布视角从低对齐多模态数据中探索对齐语义
Set-CLIP: Exploring Aligned Semantic From Low-Alignment Multimodal Data Through A Distribution View
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2406.05766v2

摘要

多模态融合突破了不同模态之间的边界,已经取得了显著的成绩。然而,在许多专业领域中,获取足够的对齐数据用于训练仍然是一个困难,这严重限制了以往有效模型的使用。因此,尝试采用半监督学习方法,通过从低对齐数据中学习来促进多模态对齐,但传统技术如伪标签在标签缺乏的情况下可能会遇到问题。为了解决这些挑战,我们将半监督多模态对齐重新框定为流形匹配问题,并提出了一种基于CLIP的新方法,称为Set-CLIP。具体来说,通过设计一种新颖的语义密度分布损失,我们以细粒度约束潜在表示分布,并从未配对的多模态数据中提取隐式语义对齐,从而减少了对大量严格匹配对的依赖。此外,我们应用粗粒度模态适配和单模态自监督指导,缩小模态空间之间的差距,并提高表示分布的稳定性。在包括蛋白质分析、遥感和通用视觉语言领域的各种任务中进行的大量实验验证了我们提出的Set-CLIP方法的有效性。特别是在没有配对数据用于监督训练的情况下,Set-CLIP依然表现出色,相比CLIP带来了144.83%的提升。