LLM2D
JaPOC:基于凭证的日语OCR后处理校正基准
JaPOC: Japanese Post-OCR Correction Benchmark using Vouchers
作者: Masato Fujitake
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.19948v1

摘要

本文构建了基准,并评估了用于日语凭证光学字符识别 (OCR) 系统的错误校正方法的有效性。对于自动化处理来说,正确识别扫描的凭证文本(例如发票上的公司名称)至关重要。然而,由于印章等噪声的存在,完美识别非常复杂。因此,正确纠正错误的 OCR 结果至关重要。然而,目前尚无公开可用的日语 OCR 错误校正基准,相关方法也尚未得到充分的研究。在本研究中,我们通过现有服务衡量了日语凭证的文本识别准确率,并开发了一个 OCR 后校正基准。然后,我们提出了使用语言模型进行错误校正的简单基线,并验证了所提出的方法是否能够有效地纠正这些错误。实验结果表明,所提出的错误校正算法显著提高了整体识别准确率。