摘要
大型视觉语言模型(LVLM)在执行高级任务时,需要具备阅读密集文本和定位图像中的物体这两项基本能力。之前的LVLM,包括 GPT-4o 等出色的专有模型,在同时出色地完成这两项任务方面都存在困难。此外,以前那些具有细粒度感知能力的LVLM,每张图像需要数千个令牌,这使得它们资源密集型。我们提出了 TextHawk2,这是一种双语 LVLM,它具有高效的细粒度感知能力,并在通用、OCR 和接地任务中展现出最先进的性能,而图像令牌数量仅为以前模型的 1/16。关键改进包括:(1) 令牌压缩:在 TextHawk2 的前身的高效架构基础上,TextHawk2 将每张图像的令牌数量显著减少了 16 倍,从而以最少的资源促进了 TextHawk 系列的训练和部署。(2) 视觉编码器增强:我们通过 LVLM 协同训练增强了视觉编码器,使其能够胜任以前从未见过的任务,如中文 OCR 和接地。(3) 数据多样性:我们保持了 1 亿个样本的可比规模,同时使预训练数据的来源多样化。我们在多个基准测试中评估了 TextHawk2,它始终表现出优异的性能,并超越了规模类似的闭源模型,例如在 OCRBench 上实现了 78.4% 的准确率,在 ChartQA 上实现了 81.4% 的准确率,在 DocVQA 上实现了 89.6% 的 ANLS,在 RefCOCOg-test 上实现了 88.1% 的准确率@0.5。