LLM2D
AceParse:一个用于学术文献解析的包含多样化结构化文本的综合数据集
AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing
作者: Huawei Ji, Cheng Deng, Bo Xue, Zhouyang Jin, Jiaxin Ding, Xiaoying Gan, Luoyi Fu, Xinbing Wang, Chenghu Zhou
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2409.10016v2

摘要

arXiv:2409.10016v2 通告类型: replace-cross 摘要:随着数据为中心的AI的发展,重点已经从基于模型的方法转向提高数据质量。学术文献作为其中一种关键类型,绝大多数以PDF格式存储,因此需要解析成文本才能进行进一步处理。然而,由于缺乏涵盖各种文本结构的数据集,因此对学术文献中的多样化的结构化文本进行解析仍然具有挑战性。在本文中,我们介绍了AceParse,这是第一个全面的数据集,旨在支持广泛范围的结构化文本的解析,包括公式、表格、列表、算法以及包含嵌入数学表达式的句子。基于AceParse,我们微调了一个多模态模型,命名为AceParser,该模型能够准确解析学术文献中的各种结构化文本。与之前的状态-of-the-art相比,在F1分数上,AceParser提升了4.1%,在Jaccard相似度上提升了5%,这表明多模态模型在学术文献解析领域的潜力。我们的数据集可在https://github.com/JHW5981/AceParse获得。