LLM2D
PsOCR:低资源普什图语言光学字符识别大型多模态模型基准测试
PsOCR: Benchmarking Large Multimodal Models for Optical Character Recognition in Low-resource Pashto Language
作者: Ijazul Haq, Yingjie Zhang, Irfan Ali Khan
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2505.10055v1

摘要

arXiv:2505.10055v1 交叉类型: cross 摘要:本文评估了大型多模态模型(LMMs)在低资源普什图语光学字符识别(OCR)中的性能。普什图语的自然语言处理(NLP)面临着诸多挑战,因为其书写体为连笔字且缺乏结构化的数据集。为了解决这一问题,我们开发了一个合成的普什图语OCR数据集PsOCR,包含一百万张图像,并进行了边界框标注,适用于训练和评估基于不同架构的模型,包括卷积神经网络(CNNs)和变换器。PsOCR涵盖了1000种独特的字体家族、颜色、图像大小和布局的变体。为评估多个LMMs的性能,我们选择了10,000张图像作为基准子集,其中包括七个开源模型:DeepSeek的Janus、InternVL、MiniCPM、Florence和Qwen(3B和7B),以及四个闭源模型:GPT-4o、Gemini、Claude和Grok。实验结果表明,Gemini在所有模型中表现最佳,而在开源模型中,Qwen-7B脱颖而出。这项工作为当前LMMs在普什图语OCR任务中的能力和局限性提供了有价值的评估,并为进一步研究不仅在普什图语OCR,还包括其他类似书写体(如阿拉伯语、波斯语和乌尔都语)的研究奠定了基础。PsOCR可在https://github.com/zirak-ai/PashtoOCR找到。