LLM2D
文档解析揭ereço:结构化信息提取的技术、挑战与前景
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction
作者: Qintong Zhang, Bin Wang, Victor Shea-Jay Huang, Junyuan Zhang, Zhengren Wang, Hao Liang, Conghui He, Wentao Zhang
发布日期: 4/17/2025
arXiv ID: oai:arXiv.org:2410.21169v4

摘要

arXiv:2410.21169v4 文章类型: replace-cross 摘要: 文档解析对于将合同、学术论文和发票等非结构化和半结构化文档转换为结构化、机器可读的数据至关重要。文档解析可靠地从非结构化输入中提取结构化数据,为众多应用提供了巨大便利。特别是在大型语言模型取得最新进展后,文档解析在知识库构建和训练数据生成中扮演着不可或缺的角色。本文综述了当前文档解析的现状,涵盖了从模块化管道系统到由大规模视觉-语言模型驱动的端到端模型的关键方法。详细探讨了核心组件,如版面检测、内容提取(包括文本、表格和数学表达式)以及多模态数据整合。此外,本文还讨论了模块化文档解析系统和视觉-语言模型在处理复杂版面、整合多个模块以及识别高密度文本时面临的挑战。文章列出了未来研究方向,并强调了开发更大规模和更多样化数据集的重要性。