LLM2D
面向多模态大型语言模型的视觉文本定位
Towards Visual Text Grounding of Multimodal Large Language Model
作者: Ming Li, Ruiyi Zhang, Jian Chen, Jiuxiang Gu, Yufan Zhou, Franck Dernoncourt, Wanrong Zhu, Tianyi Zhou, Tong Sun
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04974v1

摘要

arXiv:2504.04974v1 交叉类型: cross 摘要: 尽管Multimodal Large Language Models (MLLMs) 已经取得了进展,但在处理视觉文本 grounding 方面仍存在不可忽视的限制,尤其是在文档中的图文丰富的图像中。文档图像,如扫描表格和信息图,因其复杂的布局和文本内容而突显出关键挑战。然而,当前的基准测试并未充分应对这些挑战,因为它们主要集中在自然图像的视觉 grounding,而不是图文丰富的文档图像。因此,为了填补这一差距,我们引入了TRIG,这是一种新型任务,配备了一套新设计的指令数据集,用于评估和提高MLLMs在文档问答中的 Text-Rich Image Grounding 能力。具体来说,我们提出了一种OCR-LLM-human交互管道,创建了800个手动标注的问题-答案对作为基准和一个基于四个不同数据集的大型合成数据集,包含了90亿条数据。我们在我们提出的基准上对各种MLLMs进行全面的评估,展示了它们在图文丰富的图像上的 grounding 能力存在显著局限。此外,我们分别基于通用指令调优和即插即用高效嵌入提出了两种简单的TRIG方法。通过对我们的合成数据集进行微调,MLLMs在空间推理和 grounding 能力方面显示出显著改进的潜力。