LLM2D

摘要

arXiv:2502.07172v3 公告类型: replace-cross 摘要：在本文中，我们通过探索有标签数据和额外的无标签数据，研究了半监督的手写数学表达式识别（HMER）。我们提出了一种新颖的一致性正则化框架，称为SemiHMER，该框架引入了双分支半监督学习。具体而言，我们对同一个输入图像的两个网络强制一致性。一个扰动识别网络生成的伪标签被用于使用标准交叉熵损失监督另一个网络。SemiHMER的一致性鼓励两个扰动网络对于同一个输入图像的预测结果高度相似，并通过利用带有伪标签的无标签数据扩充训练数据。我们进一步引入了一种弱到强的策略，通过对每个分支应用不同的增强级别，有效地扩充了训练数据并提高了网络训练的质量。此外，我们提出了一种新的模块，全局动态计数模块（GDCM），通过减轻长距离公式识别中的识别不准确性和减少重复字符的出现，增强了HMER解码器的表现。实验结果表明，我们的工作在CROHME14上实现了5.47%的平均准确率提升，在CROHME16上实现了4.87%的提升，在CROHME19上实现了5.25%的提升，优于我们的基线方法。