LLM2D
DocPedia:释放大规模多模态模型在频域中用于多功能文档理解的能力
DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding
作者: Hao Feng, Qi Liu, Hao Liu, Jingqun Tang, Wengang Zhou, Houqiang Li, Can Huang
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2311.11810v4

摘要

这项工作提出了DocPedia,这是一个用于多功能无OCR文档理解的新型大型多模态模型(LMM),能够解析高达2560×2560分辨率的图像。与现有工作难以处理高分辨率文档或放弃大型语言模型从而导致视觉或语言能力受限不同,我们的DocPedia直接在频域而非像素空间处理视觉输入。这一独特的特性使DocPedia能够使用有限数量的视觉标记来捕获更多视觉和文本信息。为了持续增强模型的感知和理解能力,我们开发了一种两阶段训练策略,并丰富了涵盖多种文档类型的所有训练任务的指令/注释。在各种公开可用的基准上进行的大量定量和定性实验证实了联合学习感知和理解任务的相互好处。结果进一步证明了我们的DocPedia相对于其他方法的有效性和优越性能。