LLM2D

摘要

arXiv:2504.06037v1 类型: cross 摘要: 遮蔽语言建模是一种预测输入文本中随机遮蔽的单词的任务，这是高效的语言表示学习方法。遮蔽语言建模忽略了人们能想到的各种用于填补遮蔽位置的单词，并且只计算以单个单词为基础的损失。特别是当输入文本较短时，可以填补遮蔽位置的单词分布的熵会很高。这可能导致模型对唯一的答案过于自信。为了解决这个问题，我们提出了一种新的置信度正则化器，通过输入文本长度动态控制正则化强度。使用 GLUE 和 SQuAD 数据集的实验表明，我们的方法在准确性和预期校准误差方面表现更好。