摘要
arXiv:2504.05770v1 宣告类型: cross
摘要:光学字符识别(OCR)在文档处理、车牌识别和智能监控等应用中至关重要。然而,现有的OCR模型往往在现实场景中表现不佳,原因包括不规则的文本布局、图像质量较差、字符变异性以及高昂的计算成本。
本文介绍了SDA-Net(笔画敏感注意力和动态上下文编码网络),这是一种旨在实现鲁棒单字符识别的轻量级高效架构。SDA-Net 包含了:(1)双重注意力机制,以增强笔画级和空间特征提取;(2)一个动态上下文编码模块,利用可学习的门控机制自适应地细化语义信息;(3)一种受 U-Net 启发的特征融合策略,用于结合低级和高级特征;以及(4)一种高度优化的轻量级骨干网络,以减少内存和计算需求。
实验结果表明,SDA-Net 在具有挑战性的 OCR 基准测试中实现了最先进的准确率,并具有显著更快的推理速度,使其非常适合部署在实时和边缘基于的 OCR 系统中。