LLM2D

摘要

注意力机制中的无用元素会降低性能。我们提出了选择性注意力，这是一个对标准注意力机制的简单无参数修改，它减少了对无用元素的注意力。选择性注意力提高了各种模型尺寸和上下文长度下的语言建模性能。例如，在 C4 上使用语言建模目标训练的一系列带有选择性注意力的 Transformer，其性能与标准 Transformer 相当，而标准 Transformer 在其注意力模块中具有约 2 倍的头部和参数。选择性注意力还可以减少注意力上下文缓冲区的尺寸，从而在推理过程中显着减少内存和计算需求。例如，在 C4 上训练的具有 1 亿个参数的 Transformer，其上下文尺寸分别为 512、1,024 和 2,048，在使用选择性注意力时，其注意力模块的内存需求分别减少了 16 倍、25 倍和 47 倍，而没有选择性注意力的 Transformer 则需要更多的内存，但验证困惑度相同。