摘要
arXiv:2504.06037v2 通知类型: replace-cross
摘要:掩码语言建模是学习语言表示的一种广泛使用的方 法,其中模型在每个输入中预测一个随机掩码的词。然而,这种方法在训练过程中通常只考虑一个正确的答案,忽视了人类可能选择的多种合理的替代选项。当输入文本较短时,这一问题更为突出,因为可能的词分布通常具有较高的熵,这可能导致模型在预测时变得过于自信。为缓解这一问题,我们提出了一种新颖的置信度正则化方法,该方法根据输入长度自适应调整正则化强度。在 GLUE 和 SQuAD 基准测试上的实验结果显示,我们的方法在准确性和预期校准误差方面都有提升。