摘要
arXiv:2502.14949v1 识别类型: 横向交叉
摘要:随着检索增强生成(RAG)在文档处理中的应用日益广泛,稳健的文本识别对于知识提取变得越来越关键。尽管光学字符识别(OCR)技术在英语和其他语言中受益于大规模数据集和成熟的基准测试,但阿拉伯语OCR因为其连笔书写、从右到左的文字流动以及复杂的字体和手书体特征而面临独特的挑战。我们提出了KITAB-Bench,这是一种全面的阿拉伯语OCR基准测试,填补了当前评估体系的空白。我们的基准测试包括9大领域和36个子领域的8,809个样本,涵盖了多种文档类型,包括手写文本、结构化表格以及商业智能中21种图表类型的专门覆盖。我们的研究结果表明,现代视觉语言模型(如GPT-4、Gemini和Qwen)在字符错误率(CER)方面的表现比传统OCR方法(如EasyOCR、PaddleOCR和Surya)平均高出60%。此外,我们指出了当前阿拉伯语OCR模型的重要局限性,特别是在PDF到Markdown转换方面,最好的模型Gemini-2.0-Flash的准确率仅为65%。这突显了准确识别人文本的挑战,包括复杂字体问题、数字识别错误、单词拉伸以及表格结构检测。这项工作建立了一个严格评价框架,可以推动阿拉伯语文档分析方法的改进,并缩小与英语OCR技术之间的性能差距。