摘要
arXiv:2504.13558v1 类型: cross
摘要: Transformer 模型在机器学习的各种应用领域中广泛使用,例如自然语言处理。本文研究了 Transformer 对 Hölder 连续函数类 $\mathcal{H}_{Q}^{\beta}\left([0,1]^{d\times n},\mathbb{R}^{d\times n}\right)$ 的逼近,并构建了若干种可以克服维数灾的 Transformer。这些 Transformer 由一个带有一个头的自我注意力层和 softmax 函数作为激活函数,以及若干个前馈层组成。例如,为了达到逼近精度为 $\epsilon$ 的效果,如果 Transformer 的前馈层的激活函数为 ReLU 和 floor,只需 $\mathcal{O}\left(\log\frac{1}{\epsilon}\right)$ 个前馈层,且这些层的宽度不超过 $\mathcal{O}\left(\frac{1}{\epsilon^{2/\beta}}\log\frac{1}{\epsilon}\right)$。如果允许在前馈层中使用其他激活函数,前馈层的宽度可以进一步减少到一个常数。这些结果表明 Transformer 具有很强的表达能力。本文的构造基于 Kolmogorov-Arnold 表示定理,且不需要上下文映射的概念,因此与之前的 Transformer 近似工作的证明相比,我们的证明更加直观。此外,本文提出的一种翻译技术有助于将前馈神经网络的以往逼近结果应用于 Transformer 研究。