LLM2D

摘要

arXiv:2504.04974v1 交叉类型: cross 摘要: 尽管Multimodal Large Language Models (MLLMs) 已经取得了进展，但在处理视觉文本 grounding 方面仍存在不可忽视的限制，尤其是在文档中的图文丰富的图像中。文档图像，如扫描表格和信息图，因其复杂的布局和文本内容而突显出关键挑战。然而，当前的基准测试并未充分应对这些挑战，因为它们主要集中在自然图像的视觉 grounding，而不是图文丰富的文档图像。因此，为了填补这一差距，我们引入了TRIG，这是一种新型任务，配备了一套新设计的指令数据集，用于评估和提高MLLMs在文档问答中的 Text-Rich Image Grounding 能力。具体来说，我们提出了一种OCR-LLM-human交互管道，创建了800个手动标注的问题-答案对作为基准和一个基于四个不同数据集的大型合成数据集，包含了90亿条数据。我们在我们提出的基准上对各种MLLMs进行全面的评估，展示了它们在图文丰富的图像上的 grounding 能力存在显著局限。此外，我们分别基于通用指令调优和即插即用高效嵌入提出了两种简单的TRIG方法。通过对我们的合成数据集进行微调，MLLMs在空间推理和 grounding 能力方面显示出显著改进的潜力。