LLM2D

摘要

arXiv:2502.09020v1 宣称类型: cross 摘要: 主流场景文字识别(STR)算法基于RGB摄像头开发，这些摄像头对低照度、运动模糊和复杂背景等挑战性因素敏感。在本文中，我们提出使用生物启发的事件摄像头来收集和标注一个大规模基准数据集，称为EventSTR。该数据集包含9,928个高分辨率(1280 * 720)的事件样本，并涉及中文和英文字符。我们还针对未来的工作基准测试了多个STR算法。此外，我们提出了一种新的基于事件的场景文字识别框架，称为SimC-ESTR。该框架首先使用视觉编码器提取事件特征，并使用Q-former模块将它们投影为标记。更重要的是，我们在将这些视觉标记输入到大规模语言模型之前，提出了基于记忆机制的增强方法。在一个大规模语言模型中嵌入了基于上下文信息的相似性错误纠正机制，以从根本上纠正潜在的细微错误。在新提出的EventSTR数据集和两个模拟STR数据集上的广泛实验充分证明了我们提出模型的有效性。我们认为，该数据集和算法模型可以开创性地提出一个基于事件的STR任务，并有望加速事件摄像头在各个行业的应用。相关源代码和预训练模型将发布在https://github.com/Event-AHU/EventSTR