LLM2D

摘要

arXiv:2504.05770v1 宣告类型: cross 摘要：光学字符识别（OCR）在文档处理、车牌识别和智能监控等应用中至关重要。然而，现有的OCR模型往往在现实场景中表现不佳，原因包括不规则的文本布局、图像质量较差、字符变异性以及高昂的计算成本。本文介绍了SDA-Net（笔画敏感注意力和动态上下文编码网络），这是一种旨在实现鲁棒单字符识别的轻量级高效架构。SDA-Net 包含了：（1）双重注意力机制，以增强笔画级和空间特征提取；（2）一个动态上下文编码模块，利用可学习的门控机制自适应地细化语义信息；（3）一种受 U-Net 启发的特征融合策略，用于结合低级和高级特征；以及（4）一种高度优化的轻量级骨干网络，以减少内存和计算需求。实验结果表明，SDA-Net 在具有挑战性的 OCR 基准测试中实现了最先进的准确率，并具有显著更快的推理速度，使其非常适合部署在实时和边缘基于的 OCR 系统中。