LLM2D

摘要

大型视觉语言模型（LVLM）在执行高级任务时，需要具备阅读密集文本和定位图像中的物体这两项基本能力。之前的LVLM，包括 GPT-4o 等出色的专有模型，在同时出色地完成这两项任务方面都存在困难。此外，以前那些具有细粒度感知能力的LVLM，每张图像需要数千个令牌，这使得它们资源密集型。我们提出了 TextHawk2，这是一种双语 LVLM，它具有高效的细粒度感知能力，并在通用、OCR 和接地任务中展现出最先进的性能，而图像令牌数量仅为以前模型的 1/16。关键改进包括：(1) 令牌压缩：在 TextHawk2 的前身的高效架构基础上，TextHawk2 将每张图像的令牌数量显著减少了 16 倍，从而以最少的资源促进了 TextHawk 系列的训练和部署。(2) 视觉编码器增强：我们通过 LVLM 协同训练增强了视觉编码器，使其能够胜任以前从未见过的任务，如中文 OCR 和接地。(3) 数据多样性：我们保持了 1 亿个样本的可比规模，同时使预训练数据的来源多样化。我们在多个基准测试中评估了 TextHawk2，它始终表现出优异的性能，并超越了规模类似的闭源模型，例如在 OCRBench 上实现了 78.4% 的准确率，在 ChartQA 上实现了 81.4% 的准确率，在 DocVQA 上实现了 89.6% 的 ANLS，在 RefCOCOg-test 上实现了 88.1% 的准确率@0.5。