摘要
arXiv:2504.21559v1 提交类型: cross
摘要: 大型视觉语言模型(LVLMs)常常遭受物体幻觉的困扰,这削弱了它们的可靠性。令人惊讶的是,我们发现简单的目标导向的视觉提示——在图像上叠加视觉提示(例如,边界框,圆圈)——可以显著减轻这种幻觉;然而,不同的视觉提示(VPs)在有效性上有所不同。为此,我们提出了黑盒视觉提示工程(BBVPE),这是一种框架,用于在无需访问模型内部信息的情况下识别增强LVLM响应的最佳VPs。我们的方法使用候选VP池,并训练一个路由器模型,根据给定的输入图像动态选择最有效的VP。这种黑盒方法是模型无关的,因此适用于开源和专有LVLMs。在POPE和CHAIR等基准上的评估表明,BBVPE有效地减少了物体幻觉。