LLM2D
注意力机制、最大-affine 分区与通用逼近能力
Attention Mechanism, Max-Affine Partition, and Universal Approximation
作者: Hude Liu, Jerry Yao-Chieh Hu, Zhao Song, Han Liu
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.19901v1

摘要

arXiv:2504.19901v1 类型: cross 摘要: 我们证明了带有最少附加结构的单层、单头自注意力和交叉注意力机制具有普遍逼近能力。我们的核心见解是将单头注意力视为一种输入域分区机制,为子区域分配不同的值。这使我们能够设计注意力权重,使得这种分配模仿目标函数。在此基础上,我们证明,在$L_\infty$范数下,前接求和线性变换的一层自注意力机制能够逼近任何紧支撑域上的连续函数。此外,我们将这种构造扩展到在$L_p$范数下($1 \leq p < \infty$)逼近任何勒贝格可积函数。最后,我们还扩展了我们的技术,并证明了单头交叉注意力首次实现了相同的普遍逼近保证。