LLM2D

摘要

arXiv:2504.06037v2 通知类型: replace-cross 摘要：掩码语言建模是学习语言表示的一种广泛使用的方法，其中模型在每个输入中预测一个随机掩码的词。然而，这种方法在训练过程中通常只考虑一个正确的答案，忽视了人类可能选择的多种合理的替代选项。当输入文本较短时，这一问题更为突出，因为可能的词分布通常具有较高的熵，这可能导致模型在预测时变得过于自信。为缓解这一问题，我们提出了一种新颖的置信度正则化方法，该方法根据输入长度自适应调整正则化强度。在 GLUE 和 SQuAD 基准测试上的实验结果显示，我们的方法在准确性和预期校准误差方面都有提升。