LLM2D

摘要

arXiv:2502.07172v2 宣告类型: replace-cross 摘要: 在本文中，我们通过探索有标签数据和额外无标签数据，研究了半监督手写数学表达式识别 (HMER)。我们提出了一种新颖的一致性正则化框架，称为SemiHMER，引入了双分支半监督学习。具体来说，我们对同一输入图像施加两个网络之间的一致性约束。由一个扰动识别网络生成的伪标签被用于通过标准交叉熵损失监督另一个网络。SemiHMER一致性鼓励两个扰动网络在同一输入图像上的预测具有高相似性，并通过利用带有伪标签的无标签数据扩展训练数据。我们进一步引入了一种从弱到强的策略，通过对每个分支应用不同水平的增强，有效扩展训练数据并提高网络训练质量。此外，我们提出了一个新颖的模块，全局动态计数模块 (GDCM)，通过缓解长距离公式识别中的识别不准确性和减少重复字符的出现，增强了HMER解码器的性能。实验结果表明，与我们的基线相比，我们的工作在CROHME14上实现了平均5.47%的准确率提升，在CROHME16上实现了4.87%的准确率提升，在CROHME19上实现了5.25%的准确率提升。