LLM2D
在大型数据集上对文本识别变压器进行蒙面自监督预训练
Masked Self-Supervised Pre-Training for Text Recognition Transformers on Large-Scale Datasets
作者: Martin Ki\v{s}\v{s}, Michal Hradi\v{s}
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2503.22513v1

摘要

arXiv:2503.22513v1 交叉类型: 自监督学习 摘要:自监督学习已成为利用大规模未标记数据提高各种领域模型性能的一种强大方法。在本文中,我们探索了对文本识别变换器进行遮蔽自监督预训练。具体来说,我们在预训练阶段提出了两种修改:逐步增加遮蔽概率,并将损失函数修改为同时包含遮蔽和非遮蔽片段。我们使用包含5000万未标注文本行的数据集进行预训练,并使用四个不同大小的标注数据集进行微调。此外,我们还将我们的预训练模型与采用迁移学习训练的模型进行了比较,展示了自监督预训练的有效性。特别是,预训练一致地提高了模型的字符错误率,在某些情况下相对提高了30%。而且其效果与迁移学习相当,但不需要额外的标注文本行。