LLM2D

摘要

arXiv:2505.04175v1 交叉类型: cross 摘要：自然图像中的文本识别依然是一项具有挑战性但又必不可少的任务，其在计算机视觉和自然语言处理领域有着广泛的应用。本文介绍了一种新颖的端到端框架，该框架结合了ResNet和Vision Transformer骨干网络，并采用了一些先进的方法，包括可变形卷积、检索增强生成和条件随机场（CRF）。这些创新共同提升了特征表示，并改善了光学字符识别（OCR）性能。具体来说，该框架用可变形卷积替代了第三和第四块的标准卷积层，采用自适应丢弃进行正则化，并引入了CRF以实现更为精细的序列建模。在IC13、IC15、SVT、IIIT5K、SVTP和CUTE80六个基准数据集上进行的大量实验验证了所提出方法的有效性，分别在IC13、IC15、SVT、IIIT5K、SVTP和CUTE80上达到97.32%、58.26%、88.10%、74.13%、82.17%和66.67%的准确率，平均准确率为77.77%。这些结果建立了文本识别的新基准，展示了该方法在各种具有挑战性数据集上的鲁棒性。