LLM2D

摘要

近年来，在处理高分辨率图像时，主流的大模型（LLM）通常将图像分割成多个局部图像和一个全局图像，这会导致大量的视觉标记。为了解决这一问题，我们提出了 AVG-LLaVA，这是一种能够根据输入图像和指令自适应地选择合适视觉粒度的大模型。这种方法不仅减少了视觉标记的数量，加速了推理速度，而且提高了模型的整体性能。具体来说，我们基于 LLaVA-NeXT 引入了以下模块：(a) 一个视觉粒度缩放器，包含多个池化层，用于获取不同粒度的视觉标记；(b) 一个视觉粒度路由器，包含一个 Transformer 层、一个 MLP 层和一个投票层，用于根据图像和指令选择合适的视觉粒度。此外，我们还提出了 RGLF，这是一种新颖的训练范式，旨在将路由器预测的粒度与大模型的偏好对齐，而无需额外的标注数据。大量的实验和分析表明，AVG-LLaVA 在 11 个基准测试中取得了优越的性能，同时显著减少了视觉标记的数量，并加速了推理速度（例如，在 AI2D 基准测试中，视觉标记减少了 85.3%，推理速度提高了 2.53 倍）。