LLM2D

摘要

arXiv:2503.19658v1 文献类型:跨领域摘要：手工数字化元数据耗费时间且劳动密集，特别是在具有高度文档间格式差异的历史和现实档案中。尽管机器学习取得了进展，但由于缺乏专门的数据集来提取元数据，自动化仍受到阻碍。为解决这一问题，我们提出了BiblioPage，这是一个包含标注了结构化图书元数据的扫描书名页的数据集。该数据集包含了来自14个捷克图书馆的约2,000本单行著作书名页，跨越了广泛出版时期的多种字体风格和布局结构。每个书名页都标注了包括书名、作者、出版信息在内的16项图书属性，同时还伴有精确的位置信息，以边界框的形式呈现。为了从该数据集中提取结构化信息，我们评估了如YOLO和DETR等物体检测模型结合基于变压器的光学字符识别的效果，达到了最高的mAP值52和F1分数59。此外，我们还评估了各种视觉大型语言模型，包括LlamA 3.2-Vision和GPT-4o，最佳模型达到了F1分数67。BiblioPage为图书元数据提取提供了一个现实世界的基准，有助于文档理解、文档问题回答和文档信息提取。数据集和评估脚本可在以下地址获得：https://github.com/DCGM/biblio-dataset