LLM2D
共轭语义池化增强预训练视觉语言模型的 OOD 检测能力
Conjugated Semantic Pool Improves OOD Detection with Pre-trained Vision-Language Models
作者: Mengyuan Chen, Junyu Gao, Changsheng Xu
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2410.08611v1

摘要

零样本分布外 (OOD) 检测的一种简单方法包括从一个庞大的语义池中选择潜在的 OOD 标签,然后利用预训练的视觉语言模型对分布内 (ID) 和 OOD 标签进行分类。本文理论认为,提高性能需要扩展语义池,同时提高所选 OOD 标签被 OOD 样本激活的预期概率,并确保这些 OOD 标签的激活之间相互依赖性低。一个自然的扩展方式是采用更大的词典;然而,不可避免地引入大量同义词和不常用词无法满足上述要求,表明可行的扩展方式不仅仅是从词典中选择词语。由于 OOD 检测旨在将输入图像正确分类为 ID/OOD 类别组,我们可以“编造”不是标准类名但对该过程有益的 OOD 标签候选。观察到原始语义池由未修改的特定类名组成,我们相应地构建了一个共轭语义池 (CSP),它由修改后的超类名组成,每个超类名作为共享不同类别之间相似属性的样本的聚类中心。与我们已建立的理论一致,用 CSP 扩展 OOD 标签候选满足了要求,并在 FPR95 中比现有工作高出 7.89%。代码可在 https://github.com/MengyuanChen21/NeurIPS2024-CSP 获取。