LLM2D

摘要

arXiv:2504.12088v1 宣告类型: cross 摘要: 基于Transformer的架构在自然语言处理、计算机视觉和语音领域的各种任务中取得了最先进的性能。然而，它们巨大的容量往往会导致过拟合，特别是在训练数据有限或噪声较大时。我们提出了一种新的统一的随机正则化技术家族，直接作用于自我注意力分布。我们介绍了三种变体： 1. 硬注意力掩码：在每个查询中随机清零 top-k 注意力结果，以鼓励多样化的内容利用。 2. 模糊注意力平滑：在注意力结果上应用动态高斯卷积，以分散过于尖锐的分布。 3. 一致性正则化注意力失活：通过基于 KL 散度的一致性损失，强制在多个独立的注意力失活扰动下输出的稳定性。