LLM2D

摘要

arXiv:2504.21559v1 提交类型: cross 摘要: 大型视觉语言模型（LVLMs）常常遭受物体幻觉的困扰，这削弱了它们的可靠性。令人惊讶的是，我们发现简单的目标导向的视觉提示——在图像上叠加视觉提示（例如，边界框，圆圈）——可以显著减轻这种幻觉；然而，不同的视觉提示（VPs）在有效性上有所不同。为此，我们提出了黑盒视觉提示工程（BBVPE），这是一种框架，用于在无需访问模型内部信息的情况下识别增强LVLM响应的最佳VPs。我们的方法使用候选VP池，并训练一个路由器模型，根据给定的输入图像动态选择最有效的VP。这种黑盒方法是模型无关的，因此适用于开源和专有LVLMs。在POPE和CHAIR等基准上的评估表明，BBVPE有效地减少了物体幻觉。