LLM2D
Towards高效且通用的少量样本误分类检测方法用于视觉-语言模型
Towards Efficient and General-Purpose Few-Shot Misclassification Detection for Vision-Language Models
作者: Fanhu Zeng, Zhen Cheng, Fei Zhu, Xu-Yao Zhang
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2503.20492v1

摘要

arXiv:2503.20492v1 交叉公告类型:cross 摘要:对于将分类器部署在高安全性和动态变化的情况下,可靠的预测至关重要。然而,现代神经网络经常表现出对误分类预测的过度自信,这突显了进行信心估计以检测错误的需要。尽管现有的方法已经在小型数据集上取得了成就,但它们都需要从头训练,并且没有高效且有效的误分类检测(MisD)方法,这阻碍了向大规模和不断变化的数据集的实用应用。在本文中,我们利用视觉语言模型(VLM)利用文本信息来建立一个高效且通用的误分类检测框架。通过发挥VLM的力量,我们构建了FSMisD,这是一种基于少量提示学习框架的MisD框架,以避免从头训练,从而提高调整效率。为了增强误分类检测能力,我们使用自适应伪样本生成和一种新颖的负损失来通过将类别提示远离伪特征来缓解过度自信的问题。我们进行了全面的实验,并通过领域转移验证了该框架在各种数据集上的泛化能力。显著且一致的改进证明了我们方法的有效性、效率和泛化能力。