摘要
我们提出了Arabic-Nougat,一套用于将阿拉伯语书籍页面转换为结构化Markdown文本的光学字符识别(OCR)模型。基于Meta的Nougat架构,Arabic-Nougat包含三个专用模型:arabic-small-nougat、arabic-base-nougat和arabic-large-nougat。这些模型在一个合成数据集arabic-img2md上进行了微调,该数据集包含13700对阿拉伯语书籍页面及其Markdown表示。主要贡献包括专为高效分词而设计的Aranizer-PBE-86k分词器,以及使用torch.bfloat16精度和Flash Attention 2进行优化训练和推理。我们的模型达到了最先进的性能,其中arabic-large-nougat实现了最高的Markdown结构准确率和最低的字符错误率。此外,我们发布了一个大型数据集,其中包含使用我们性能最佳的模型从8500多本书中提取的11亿个阿拉伯语标记,为阿拉伯语OCR研究提供了宝贵的资源。所有模型、数据集和代码都是开源的,可在https://github.com/MohamedAliRashad/arabic-nougat获取。