LLM2D

摘要

将基于文本的身份文件（如尼泊尔公民卡）转换为结构化的数字格式面临着诸多挑战，因为尼泊尔文字具有独特的特点，并且不同卡片的印刷对齐和对比度存在细微差异。本研究提出了一种鲁棒的系统，该系统使用 YOLOv8 进行准确的文本对象检测，并使用基于优化 PyTesseract 的 OCR 算法。该系统在移动应用程序的背景下实现，可以自动提取尼泊尔公民卡正反两面的重要文本信息，包括姓名、公民号码和出生日期。最终的 YOLOv8 模型非常准确，文本检测的平均精度分别为正面 99.1% 和背面 96.1%。针对尼泊尔字符优化的 PyTesseract 在灵活性和准确性方面优于标准 OCR，能够从具有清晰和嘈杂背景以及不同对比度的图像中提取文本。使用预处理步骤，如将图像转换为灰度、去除图像噪声和检测边缘，进一步提高了系统的 OCR 准确性，即使对于低质量的照片也是如此。这项工作扩展了当前的多语言 OCR 和文档分析研究领域，特别是针对尼泊尔语等低资源语言。它强调了将最新的目标检测框架与针对实际应用进行微调的 OCR 模型相结合的有效性。