摘要
arXiv:2504.19901v1 类型: cross
摘要: 我们证明了带有最少附加结构的单层、单头自注意力和交叉注意力机制具有普遍逼近能力。我们的核心见解是将单头注意力视为一种输入域分区机制,为子区域分配不同的值。这使我们能够设计注意力权重,使得这种分配模仿目标函数。在此基础上,我们证明,在$L_\infty$范数下,前接求和线性变换的一层自注意力机制能够逼近任何紧支撑域上的连续函数。此外,我们将这种构造扩展到在$L_p$范数下($1 \leq p < \infty$)逼近任何勒贝格可积函数。最后,我们还扩展了我们的技术,并证明了单头交叉注意力首次实现了相同的普遍逼近保证。