LLM2D

摘要

arXiv:2412.07626v2 公告类型：替换-交叉摘要：文档内容提取是计算机视觉中的关键任务，支撑着大型语言模型（LLMs）和检索增强生成（RAG）系统的数据需求。尽管最近取得了一些进展，但由于现有基准的文档类型覆盖面狭窄以及简化且不现实的评估程序，当前的文档解析方法未能得到公平且全面的评价。为解决这些差距，我们引入了OmniDocBench，一个新颖的基准，涵盖九种文档来源的高度注释数据，包括学术论文、教科书以及更具有挑战性的手写笔记和密集排版的报纸等。OmniDocBench 支持灵活的多层次评估——从端到端评估到特定任务和属性基于的分析，使用了19种布局分类和15个属性标签。我们对基于流水线的方法和端到端的视觉语言模型进行了详尽的评估，揭示了它们在不同文档类型中的优缺点。OmniDocBench 设定了文档解析公平、多样和精细评估的新标准。数据集和代码可在 https://github.com/opendatalab/OmniDocBench 获取。