LLM2D
半监督手写数学表达式识别:使用伪标签的方法
SemiHMER: Semi-supervised Handwritten Mathematical Expression Recognition using pseudo-labels
作者: Kehua Chen, Haoyang Shen
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.07172v1

摘要

arXiv:2502.07172v1 Announce Type: 跨领域 摘要:近年来,使用卷积神经网络(CNNs)的深度学习在手写数学表达识别(HMER)领域取得了显著成果。然而,由于标注训练数据有限,提高性能仍然具有挑战性。本文首次提出了一个简单而有效的半监督HMER框架,通过引入双分支半监督学习。具体来说,我们将传统的深层共训练从一致性正则化简化为跨监督学习,其中一个分支的预测被用作伪标签直接监督另一个分支,实现端到端的监督。考虑到两个分支的学习在模型优化后期趋于收敛,我们还引入了一种从弱到强的策略,通过对每个分支施加不同水平的数据增强,这类似于扩展训练数据并提高网络训练的质量。同时,我们提出了一种新的模块,全局动态计数模块(GDCM),以增强HMER解码器的性能,这可以缓解长距离公式识别中的识别不准确性和重复字符的出现。我们已将代码发布在 https://github.com/chenkehua/SemiHMER。