摘要
arXiv:2503.19658v1 文献类型:跨领域
摘要:手工数字化元数据耗费时间且劳动密集,特别是在具有高度文档间格式差异的历史和现实档案中。尽管机器学习取得了进展,但由于缺乏专门的数据集来提取元数据,自动化仍受到阻碍。为解决这一问题,我们提出了BiblioPage,这是一个包含标注了结构化图书元数据的扫描书名页的数据集。该数据集包含了来自14个捷克图书馆的约2,000本单行著作书名页,跨越了广泛出版时期的多种字体风格和布局结构。每个书名页都标注了包括书名、作者、出版信息在内的16项图书属性,同时还伴有精确的位置信息,以边界框的形式呈现。为了从该数据集中提取结构化信息,我们评估了如YOLO和DETR等物体检测模型结合基于变压器的光学字符识别的效果,达到了最高的mAP值52和F1分数59。此外,我们还评估了各种视觉大型语言模型,包括LlamA 3.2-Vision和GPT-4o,最佳模型达到了F1分数67。BiblioPage为图书元数据提取提供了一个现实世界的基准,有助于文档理解、文档问题回答和文档信息提取。数据集和评估脚本可在以下地址获得:https://github.com/DCGM/biblio-dataset