LLM2D
选择性注意力提升Transformer
Selective Attention Improves Transformer
作者: Yaniv Leviathan, Matan Kalman, Yossi Matias
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.02703v1

摘要

注意力机制中的无用元素会降低性能。我们提出了选择性注意力,这是一个对标准注意力机制的简单无参数修改,它减少了对无用元素的注意力。选择性注意力提高了各种模型尺寸和上下文长度下的语言建模性能。例如,在 C4 上使用语言建模目标训练的一系列带有选择性注意力的 Transformer,其性能与标准 Transformer 相当,而标准 Transformer 在其注意力模块中具有约 2 倍的头部和参数。选择性注意力还可以减少注意力上下文缓冲区的尺寸,从而在推理过程中显着减少内存和计算需求。例如,在 C4 上训练的具有 1 亿个参数的 Transformer,其上下文尺寸分别为 512、1,024 和 2,048,在使用选择性注意力时,其注意力模块的内存需求分别减少了 16 倍、25 倍和 47 倍,而没有选择性注意力的 Transformer 则需要更多的内存,但验证困惑度相同。