摘要
arXiv:2410.21169v4 文章类型: replace-cross
摘要: 文档解析对于将合同、学术论文和发票等非结构化和半结构化文档转换为结构化、机器可读的数据至关重要。文档解析可靠地从非结构化输入中提取结构化数据,为众多应用提供了巨大便利。特别是在大型语言模型取得最新进展后,文档解析在知识库构建和训练数据生成中扮演着不可或缺的角色。本文综述了当前文档解析的现状,涵盖了从模块化管道系统到由大规模视觉-语言模型驱动的端到端模型的关键方法。详细探讨了核心组件,如版面检测、内容提取(包括文本、表格和数学表达式)以及多模态数据整合。此外,本文还讨论了模块化文档解析系统和视觉-语言模型在处理复杂版面、整合多个模块以及识别高密度文本时面临的挑战。文章列出了未来研究方向,并强调了开发更大规模和更多样化数据集的重要性。