LLM2D

摘要

我们提出了Arabic-Nougat，一套用于将阿拉伯语书籍页面转换为结构化Markdown文本的光学字符识别（OCR）模型。基于Meta的Nougat架构，Arabic-Nougat包含三个专用模型：arabic-small-nougat、arabic-base-nougat和arabic-large-nougat。这些模型在一个合成数据集arabic-img2md上进行了微调，该数据集包含13700对阿拉伯语书籍页面及其Markdown表示。主要贡献包括专为高效分词而设计的Aranizer-PBE-86k分词器，以及使用torch.bfloat16精度和Flash Attention 2进行优化训练和推理。我们的模型达到了最先进的性能，其中arabic-large-nougat实现了最高的Markdown结构准确率和最低的字符错误率。此外，我们发布了一个大型数据集，其中包含使用我们性能最佳的模型从8500多本书中提取的11亿个阿拉伯语标记，为阿拉伯语OCR研究提供了宝贵的资源。所有模型、数据集和代码都是开源的，可在https://github.com/MohamedAliRashad/arabic-nougat获取。