摘要
arXiv:2505.04175v1 交叉类型: cross
摘要:自然图像中的文本识别依然是一项具有挑战性但又必不可少的任务,其在计算机视觉和自然语言处理领域有着广泛的应用。本文介绍了一种新颖的端到端框架,该框架结合了ResNet和Vision Transformer骨干网络,并采用了一些先进的方法,包括可变形卷积、检索增强生成和条件随机场(CRF)。这些创新共同提升了特征表示,并改善了光学字符识别(OCR)性能。具体来说,该框架用可变形卷积替代了第三和第四块的标准卷积层,采用自适应丢弃进行正则化,并引入了CRF以实现更为精细的序列建模。在IC13、IC15、SVT、IIIT5K、SVTP和CUTE80六个基准数据集上进行的大量实验验证了所提出方法的有效性,分别在IC13、IC15、SVT、IIIT5K、SVTP和CUTE80上达到97.32%、58.26%、88.10%、74.13%、82.17%和66.67%的准确率,平均准确率为77.77%。这些结果建立了文本识别的新基准,展示了该方法在各种具有挑战性数据集上的鲁棒性。