LLM2D
一种轻量级多模块融合方法用于韩文字符识别
A Lightweight Multi-Module Fusion Approach for Korean Character Recognition
作者: Inho Jake Park, Jaehoon Jay Jeong, Ho-Sang Jo
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.05770v1

摘要

arXiv:2504.05770v1 宣告类型: cross 摘要:光学字符识别(OCR)在文档处理、车牌识别和智能监控等应用中至关重要。然而,现有的OCR模型往往在现实场景中表现不佳,原因包括不规则的文本布局、图像质量较差、字符变异性以及高昂的计算成本。 本文介绍了SDA-Net(笔画敏感注意力和动态上下文编码网络),这是一种旨在实现鲁棒单字符识别的轻量级高效架构。SDA-Net 包含了:(1)双重注意力机制,以增强笔画级和空间特征提取;(2)一个动态上下文编码模块,利用可学习的门控机制自适应地细化语义信息;(3)一种受 U-Net 启发的特征融合策略,用于结合低级和高级特征;以及(4)一种高度优化的轻量级骨干网络,以减少内存和计算需求。 实验结果表明,SDA-Net 在具有挑战性的 OCR 基准测试中实现了最先进的准确率,并具有显著更快的推理速度,使其非常适合部署在实时和边缘基于的 OCR 系统中。