LLM2D
面向大型视觉语言模型的图像注意力提示
Attention Prompting on Image for Large Vision-Language Models
作者: Runpeng Yu, Weihao Yu, Xinchao Wang
发布日期: 9/26/2024
arXiv ID: oai:arXiv.org:2409.17143v1

摘要

与大型语言模型 (LLMs) 相比,大型视觉-语言模型 (LVLMs) 还可以接受图像作为输入,因此展现出更有趣的涌现能力,并在各种视觉-语言任务中展现出令人印象深刻的性能。受 LLMs 中文本提示的启发,视觉提示已被探索以增强 LVLMs 感知视觉信息的能力。然而,以往的视觉提示技术仅处理视觉输入而不考虑文本查询,限制了模型遵循文本指令完成任务的能力。为了填补这一空白,在这项工作中,我们提出了一种新的提示技术,称为图像上的注意力提示,它只是简单地将文本查询引导的注意力热图叠加在原始输入图像上,并有效地增强了 LVLM 在各种任务上的性能。具体来说,我们使用 CLIP 等辅助模型为输入图像生成一个依赖于文本查询的注意力热图。然后,热图简单地乘以原始图像的像素值,以获得 LVLM 的实际输入图像。在各种视觉-语言基准上的大量实验验证了我们技术的有效性。例如,图像上的注意力提示分别将 LLaVA-1.5 在 MM-Vet 和 LLaVA-Wild 基准上的性能提高了 3.8% 和 2.9%。