LLM2D
通过多模态表示的跨模态对齐增强异常检测
Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations
作者: Jeonghyeon Kim, Sangheum Hwang
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.18817v1

摘要

arXiv:2503.18817v1 宣布类型: cross 摘要:以往关于分布外检测(OoDD)的研究主要集中在单模态模型上。随着大型预训练视觉-语言模型(如CLIP)的出现,利用多模态表示的零样本和提示学习策略的OoDD方法已经涌现出来。然而,这些方法通常涉及到冻结预训练权重或仅部分调优它们,这可能对下游数据集来说不是最优的。在本文中,我们强调多模态微调(MMFT)可以实现显著的OoDD性能。尽管一些最近的工作证明了微调方法对OoDD的影响,但仍有很大的性能提升空间。我们研究了简单微调方法的局限性,探讨了它们为何未能充分利用预训练知识。我们实证分析表明,这个问题可能源于同分布(ID)嵌入中的模态差距。为了解决这一问题,我们提出了一种训练目标,该目标通过正则化图像和文本嵌入之间的距离来增强跨模态对齐,这有助于更好地利用预训练的文本信息,通过在超球体表示空间内使不同模态(如文本和图像)具有更相似的语义来充分利用预训练文本信息。我们从理论上证明,提出的正则化与超球面上的能量基模型的最大似然估计相对应。通过使用ImageNet-1k OoD基准数据集,我们展示了我们的方法,结合利用预训练知识的后置OoDD方法(如NegLabel),显著优于现有方法,实现了最先进的OoDD性能和改进的ID精度。