LLM2D

摘要

arXiv:2505.10055v1 交叉类型: cross 摘要：本文评估了大型多模态模型（LMMs）在低资源普什图语光学字符识别（OCR）中的性能。普什图语的自然语言处理（NLP）面临着诸多挑战，因为其书写体为连笔字且缺乏结构化的数据集。为了解决这一问题，我们开发了一个合成的普什图语OCR数据集PsOCR，包含一百万张图像，并进行了边界框标注，适用于训练和评估基于不同架构的模型，包括卷积神经网络（CNNs）和变换器。PsOCR涵盖了1000种独特的字体家族、颜色、图像大小和布局的变体。为评估多个LMMs的性能，我们选择了10,000张图像作为基准子集，其中包括七个开源模型：DeepSeek的Janus、InternVL、MiniCPM、Florence和Qwen（3B和7B），以及四个闭源模型：GPT-4o、Gemini、Claude和Grok。实验结果表明，Gemini在所有模型中表现最佳，而在开源模型中，Qwen-7B脱颖而出。这项工作为当前LMMs在普什图语OCR任务中的能力和局限性提供了有价值的评估，并为进一步研究不仅在普什图语OCR，还包括其他类似书写体（如阿拉伯语、波斯语和乌尔都语）的研究奠定了基础。PsOCR可在https://github.com/zirak-ai/PashtoOCR找到。