LLM2D
DOGE:迈向通用的视觉文档理解和指代
DOGE: Towards Versatile Visual Document Grounding and Referring
作者: Yinan Zhou, Yuxin Chen, Haokun Lin, Shuyu Yang, Li Zhu, Zhongang Qi, Chen Ma, Ying Shan
发布日期: 11/27/2024
arXiv ID: oai:arXiv.org:2411.17125v1

摘要

近年来,多模态大型语言模型 (MLLM) 越来越强调其定位和指代能力,以实现更细致的理解和更灵活的用户交互。然而,在视觉文档理解领域,由于缺乏细粒度数据集和全面的基准测试,这些能力仍然落后。为了弥补这一差距,我们提出了文档定位和指代数据引擎 (DOGE-Engine),它生成两种类型的高质量细粒度文档数据:用于增强基本文本定位和识别能力的多粒度解析数据;以及用于在对话和推理过程中激活 MLLM 定位和指代能力的指令微调数据。此外,利用我们的引擎,我们构建了 DOGE-Bench,它包含跨越 3 种文档类型(图表、海报、PDF 文档)的 7 个定位和指代任务,为细粒度文档理解提供了全面的评估。此外,利用我们引擎生成的数据,我们开发了一个强大的基线模型 DOGE。这个开创性的 MLLM 能够准确地指代和定位文档图像中多个粒度的文本。我们的代码、数据和模型将开源,以促进社区发展。