LLM2D
基于文本长度的置信正则化遮蔽语言 modeling
Confidence Regularized Masked Language Modeling using Text Length
作者: Seunghyun Ji, Soowon Lee
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.06037v1

摘要

arXiv:2504.06037v1 类型: cross 摘要: 遮蔽语言建模是一种预测输入文本中随机遮蔽的单词的任务,这是高效的语言表示学习方法。遮蔽语言建模忽略了人们能想到的各种用于填补遮蔽位置的单词,并且只计算以单个单词为基础的损失。特别是当输入文本较短时,可以填补遮蔽位置的单词分布的熵会很高。这可能导致模型对唯一的答案过于自信。为了解决这个问题,我们提出了一种新的置信度正则化器,通过输入文本长度动态控制正则化强度。使用 GLUE 和 SQuAD 数据集的实验表明,我们的方法在准确性和预期校准误差方面表现更好。