摘要
将基于文本的身份文件(如尼泊尔公民卡)转换为结构化的数字格式面临着诸多挑战,因为尼泊尔文字具有独特的特点,并且不同卡片的印刷对齐和对比度存在细微差异。本研究提出了一种鲁棒的系统,该系统使用 YOLOv8 进行准确的文本对象检测,并使用基于优化 PyTesseract 的 OCR 算法。该系统在移动应用程序的背景下实现,可以自动提取尼泊尔公民卡正反两面的重要文本信息,包括姓名、公民号码和出生日期。最终的 YOLOv8 模型非常准确,文本检测的平均精度分别为正面 99.1% 和背面 96.1%。针对尼泊尔字符优化的 PyTesseract 在灵活性和准确性方面优于标准 OCR,能够从具有清晰和嘈杂背景以及不同对比度的图像中提取文本。使用预处理步骤,如将图像转换为灰度、去除图像噪声和检测边缘,进一步提高了系统的 OCR 准确性,即使对于低质量的照片也是如此。这项工作扩展了当前的多语言 OCR 和文档分析研究领域,特别是针对尼泊尔语等低资源语言。它强调了将最新的目标检测框架与针对实际应用进行微调的 OCR 模型相结合的有效性。