LLM2D

摘要

与大型语言模型 (LLMs) 相比，大型视觉-语言模型 (LVLMs) 还可以接受图像作为输入，因此展现出更有趣的涌现能力，并在各种视觉-语言任务中展现出令人印象深刻的性能。受 LLMs 中文本提示的启发，视觉提示已被探索以增强 LVLMs 感知视觉信息的能力。然而，以往的视觉提示技术仅处理视觉输入而不考虑文本查询，限制了模型遵循文本指令完成任务的能力。为了填补这一空白，在这项工作中，我们提出了一种新的提示技术，称为图像上的注意力提示，它只是简单地将文本查询引导的注意力热图叠加在原始输入图像上，并有效地增强了 LVLM 在各种任务上的性能。具体来说，我们使用 CLIP 等辅助模型为输入图像生成一个依赖于文本查询的注意力热图。然后，热图简单地乘以原始图像的像素值，以获得 LVLM 的实际输入图像。在各种视觉-语言基准上的大量实验验证了我们技术的有效性。例如，图像上的注意力提示分别将 LLaVA-1.5 在 MM-Vet 和 LLaVA-Wild 基准上的性能提高了 3.8% 和 2.9%。