摘要
arXiv:2503.22714v1 类型: cross
摘要: 本文介绍了TRIDIS(Tria Digita Scribunt),一个开源的中世纪和早期现代手稿语料库。TRIDIS汇集了多个遗留集合(所有出版物均使用了开放许可),并包含了大量元数据描述。虽然之前的研究曾引用了该语料库的某些部分,但在这里我们提供了一个统一的概述,重点在于其构成。我们描述了以下内容:(i) 每个主要子语料库的叙述性、时间性和编辑性背景;(ii) 其半外交通稿规则(扩展、规范化、标点符号);(iii) 驱动异常检测在联合嵌入空间中的挑战性领域测试拆分策略;以及(iv) 使用TrOCR和MiniCPM2.5进行初步基准实验,比较随机和基于异常的测试分区。总体而言,TRIDIS旨在激发中世纪和早期现代文本遗产领域的 robust 手写文本识别 (HTR) 和命名实体识别 (NER) 联合研究。