LLM2D
反思性指导:通过自指导图像适应性概念生成提高视觉-语言模型的异常领域适应性
Reflexive Guidance: Improving OoDD in Vision-Language Models via Self-Guided Image-Adaptive Concept Generation
作者: Jihyo Kim, Seulbi Lee, Sangheum Hwang
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2410.14975v2

摘要

arXiv:2410.14975v2 通知类型: 替换交叉 摘要:随着最近在互联网规模数据上训练的基础模型展现出令人瞩目的泛化能力,这些基础模型得到了更广泛的应用,从而扩展了应用领域。尽管如此,基础模型的信任度仍然未被深入探索。具体来说,像GPT-4o这样的大规模多模态视觉-语言模型(LVLMs),其训练数据量巨大,其离分布外检测(OoDD)能力尚未得到充分关注。其表现出的潜力与实际可靠性之间的差距引发对其安全和可靠部署的关切。为应对这一缺口,我们评估和分析了多种专有和开源LVLMs的OoDD能力。我们的研究促进了对这些基础模型如何通过生成的自然语言响应表示置信度分值的更好理解。此外,我们提出了一种自我引导的提示方法,称为反射性引导(ReGuide),旨在通过利用自我生成的图像自适应概念建议来增强LVLMs的OoDD能力。实验结果表明,我们的ReGuide能够增强当前LVLMs在图像分类和OoDD任务中的性能。每个样本的所选图像列表以及提示和响应均可在 https://github.com/daintlab/ReGuide 查看。