LLM2D
基于检索增强生成的端到端文本识别可变形优化变压器架构
DOTA: Deformable Optimized Transformer Architecture for End-to-End Text Recognition with Retrieval-Augmented Generation
作者: Naphat Nithisopa, Teerapong Panboonyuen
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2505.04175v1

摘要

arXiv:2505.04175v1 交叉类型: cross 摘要:自然图像中的文本识别依然是一项具有挑战性但又必不可少的任务,其在计算机视觉和自然语言处理领域有着广泛的应用。本文介绍了一种新颖的端到端框架,该框架结合了ResNet和Vision Transformer骨干网络,并采用了一些先进的方法,包括可变形卷积、检索增强生成和条件随机场(CRF)。这些创新共同提升了特征表示,并改善了光学字符识别(OCR)性能。具体来说,该框架用可变形卷积替代了第三和第四块的标准卷积层,采用自适应丢弃进行正则化,并引入了CRF以实现更为精细的序列建模。在IC13、IC15、SVT、IIIT5K、SVTP和CUTE80六个基准数据集上进行的大量实验验证了所提出方法的有效性,分别在IC13、IC15、SVT、IIIT5K、SVTP和CUTE80上达到97.32%、58.26%、88.10%、74.13%、82.17%和66.67%的准确率,平均准确率为77.77%。这些结果建立了文本识别的新基准,展示了该方法在各种具有挑战性数据集上的鲁棒性。