LLM2D
BiblioPage:扫描标题页数据集,用于 bibliographic 元数据提取
BiblioPage: A Dataset of Scanned Title Pages for Bibliographic Metadata Extraction
作者: Jan Koh\'ut, Martin Do\v{c}ekal, Michal Hradi\v{s}, Marek Va\v{s}ko
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.19658v1

摘要

arXiv:2503.19658v1 文献类型:跨领域 摘要:手工数字化元数据耗费时间且劳动密集,特别是在具有高度文档间格式差异的历史和现实档案中。尽管机器学习取得了进展,但由于缺乏专门的数据集来提取元数据,自动化仍受到阻碍。为解决这一问题,我们提出了BiblioPage,这是一个包含标注了结构化图书元数据的扫描书名页的数据集。该数据集包含了来自14个捷克图书馆的约2,000本单行著作书名页,跨越了广泛出版时期的多种字体风格和布局结构。每个书名页都标注了包括书名、作者、出版信息在内的16项图书属性,同时还伴有精确的位置信息,以边界框的形式呈现。为了从该数据集中提取结构化信息,我们评估了如YOLO和DETR等物体检测模型结合基于变压器的光学字符识别的效果,达到了最高的mAP值52和F1分数59。此外,我们还评估了各种视觉大型语言模型,包括LlamA 3.2-Vision和GPT-4o,最佳模型达到了F1分数67。BiblioPage为图书元数据提取提供了一个现实世界的基准,有助于文档理解、文档问题回答和文档信息提取。数据集和评估脚本可在以下地址获得:https://github.com/DCGM/biblio-dataset