摘要
arXiv:2412.08378v3 公告类型:替换-交叉
摘要:近期,对多模态大规模语言模型(MLLMs)处理高分辨率图像的能力产生了越来越多的兴趣。目前常用的方法是动态裁剪原始高分辨率图像为较小的子图像,然后将这些子图像输入预训练在低分辨率图像上的视觉编码器。然而,这种方法往往会导致原始图像中的对象和连接区域被截断,产生语义断层。为了克服这一限制,我们引入了HyViLM,旨在处理任意分辨率的图像并在编码过程中保留整体上下文。具体来说,我们:(i) 设计了一种新的视觉编码器,称为Hybrid Encoder,不仅编码单个子图像,还能与详细的全局视觉特征进行交互,显著提高模型处理高分辨率图像的能力。(ii) 提出了动态裁剪方法的最佳特征融合策略,有效地利用视觉编码器不同层次的信息。相较于在相同设置下的当前最先进的MLLMs,在十个任务中有九个任务中,我们的HyViLM表现出色。具体而言,HyViLM在TextVQA任务上的性能提高了9.6%,在DocVQA任务上的性能提高了6.9%。