摘要
arXiv:2504.12088v1 宣告类型: cross
摘要: 基于Transformer的架构在自然语言处理、计算机视觉和语音领域的各种任务中取得了最先进的性能。然而,它们巨大的容量往往会导致过拟合,特别是在训练数据有限或噪声较大时。我们提出了一种新的统一的随机正则化技术家族,直接作用于自我注意力分布。我们介绍了三种变体:
1. 硬注意力掩码:在每个查询中随机清零 top-k 注意力结果,以鼓励多样化的内容利用。
2. 模糊注意力平滑:在注意力结果上应用动态高斯卷积,以分散过于尖锐的分布。
3. 一致性正则化注意力失活:通过基于 KL 散度的一致性损失,强制在多个独立的注意力失活扰动下输出的稳定性。