LLM2D
AnnoPage 数据集:具有细粒度分类的文档中非文本元素数据集
AnnoPage Dataset: Dataset of Non-Textual Elements in Documents with Fine-Grained Categorization
作者: Martin Ki\v{s}\v{s}, Michal Hradi\v{s}, Martina Dvo\v{r}\'akov\'a, V\'aclav Jirou\v{s}ek, Filip Kersch
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2503.22526v1

摘要

arXiv:2503.22526v1 声明类型: cross 摘要: 我们引入了AnnoPage数据集,这是一个包含7550页的历史文件的新颖集合,主要为捷克语和德语,时间跨度从1485年到当前,重点关注19世纪末和20世纪初。该数据集旨在支持文档布局分析和对象检测的研究。每页都标注了25类非文本元素(如图像、地图、装饰元素或图表)的轴对齐边界框(AABB),遵循捷克图像文件处理方法论。这些注解由专家图书管理员创建,以确保准确性和一致性。该数据集还包含了多个,主要是历史性的文档数据集的页面,以增强多样性和保持连续性。该数据集分为开发集和测试集,测试集精心选择以保持类别分布的连续性。我们提供了使用YOLO和DETR对象检测器的基线结果,为未来的研究提供参考点。AnnoPage数据集已公开发布在Zenodo上 (https://doi.org/10.5281/zenodo.12788419),并提供了YOLO格式的地面真实注解。