LLM2D

摘要

arXiv:2412.08378v3 公告类型：替换-交叉摘要：近期，对多模态大规模语言模型（MLLMs）处理高分辨率图像的能力产生了越来越多的兴趣。目前常用的方法是动态裁剪原始高分辨率图像为较小的子图像，然后将这些子图像输入预训练在低分辨率图像上的视觉编码器。然而，这种方法往往会导致原始图像中的对象和连接区域被截断，产生语义断层。为了克服这一限制，我们引入了HyViLM，旨在处理任意分辨率的图像并在编码过程中保留整体上下文。具体来说，我们：(i) 设计了一种新的视觉编码器，称为Hybrid Encoder，不仅编码单个子图像，还能与详细的全局视觉特征进行交互，显著提高模型处理高分辨率图像的能力。(ii) 提出了动态裁剪方法的最佳特征融合策略，有效地利用视觉编码器不同层次的信息。相较于在相同设置下的当前最先进的MLLMs，在十个任务中有九个任务中，我们的HyViLM表现出色。具体而言，HyViLM在TextVQA任务上的性能提高了9.6%，在DocVQA任务上的性能提高了6.9%。