LLM2D

摘要

近年来，多模态大型语言模型 (MLLM) 越来越强调其定位和指代能力，以实现更细致的理解和更灵活的用户交互。然而，在视觉文档理解领域，由于缺乏细粒度数据集和全面的基准测试，这些能力仍然落后。为了弥补这一差距，我们提出了文档定位和指代数据引擎 (DOGE-Engine)，它生成两种类型的高质量细粒度文档数据：用于增强基本文本定位和识别能力的多粒度解析数据；以及用于在对话和推理过程中激活 MLLM 定位和指代能力的指令微调数据。此外，利用我们的引擎，我们构建了 DOGE-Bench，它包含跨越 3 种文档类型（图表、海报、PDF 文档）的 7 个定位和指代任务，为细粒度文档理解提供了全面的评估。此外，利用我们引擎生成的数据，我们开发了一个强大的基线模型 DOGE。这个开创性的 MLLM 能够准确地指代和定位文档图像中多个粒度的文本。我们的代码、数据和模型将开源，以促进社区发展。