LLM2D
黑盒视觉提示工程以减轻大型视觉语言模型中的物体幻视问题
Black-Box Visual Prompt Engineering for Mitigating Object Hallucination in Large Vision Language Models
作者: Sangmin Woo, Kang Zhou, Yun Zhou, Shuai Wang, Sheng Guan, Haibo Ding, Lin Lee Cheong
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2504.21559v1

摘要

arXiv:2504.21559v1 提交类型: cross 摘要: 大型视觉语言模型(LVLMs)常常遭受物体幻觉的困扰,这削弱了它们的可靠性。令人惊讶的是,我们发现简单的目标导向的视觉提示——在图像上叠加视觉提示(例如,边界框,圆圈)——可以显著减轻这种幻觉;然而,不同的视觉提示(VPs)在有效性上有所不同。为此,我们提出了黑盒视觉提示工程(BBVPE),这是一种框架,用于在无需访问模型内部信息的情况下识别增强LVLM响应的最佳VPs。我们的方法使用候选VP池,并训练一个路由器模型,根据给定的输入图像动态选择最有效的VP。这种黑盒方法是模型无关的,因此适用于开源和专有LVLMs。在POPE和CHAIR等基准上的评估表明,BBVPE有效地减少了物体幻觉。