摘要
arXiv:2503.22526v1 声明类型: cross
摘要: 我们引入了AnnoPage数据集,这是一个包含7550页的历史文件的新颖集合,主要为捷克语和德语,时间跨度从1485年到当前,重点关注19世纪末和20世纪初。该数据集旨在支持文档布局分析和对象检测的研究。每页都标注了25类非文本元素(如图像、地图、装饰元素或图表)的轴对齐边界框(AABB),遵循捷克图像文件处理方法论。这些注解由专家图书管理员创建,以确保准确性和一致性。该数据集还包含了多个,主要是历史性的文档数据集的页面,以增强多样性和保持连续性。该数据集分为开发集和测试集,测试集精心选择以保持类别分布的连续性。我们提供了使用YOLO和DETR对象检测器的基线结果,为未来的研究提供参考点。AnnoPage数据集已公开发布在Zenodo上 (https://doi.org/10.5281/zenodo.12788419),并提供了YOLO格式的地面真实注解。