LLM2D

摘要

arXiv:2503.18817v1 宣布类型: cross 摘要：以往关于分布外检测（OoDD）的研究主要集中在单模态模型上。随着大型预训练视觉-语言模型（如CLIP）的出现，利用多模态表示的零样本和提示学习策略的OoDD方法已经涌现出来。然而，这些方法通常涉及到冻结预训练权重或仅部分调优它们，这可能对下游数据集来说不是最优的。在本文中，我们强调多模态微调（MMFT）可以实现显著的OoDD性能。尽管一些最近的工作证明了微调方法对OoDD的影响，但仍有很大的性能提升空间。我们研究了简单微调方法的局限性，探讨了它们为何未能充分利用预训练知识。我们实证分析表明，这个问题可能源于同分布（ID）嵌入中的模态差距。为了解决这一问题，我们提出了一种训练目标，该目标通过正则化图像和文本嵌入之间的距离来增强跨模态对齐，这有助于更好地利用预训练的文本信息，通过在超球体表示空间内使不同模态（如文本和图像）具有更相似的语义来充分利用预训练文本信息。我们从理论上证明，提出的正则化与超球面上的能量基模型的最大似然估计相对应。通过使用ImageNet-1k OoD基准数据集，我们展示了我们的方法，结合利用预训练知识的后置OoDD方法（如NegLabel），显著优于现有方法，实现了最先进的OoDD性能和改进的ID精度。