LLM2D
softmax 注意机制的通用近似能力
Universal Approximation with Softmax Attention
作者: Jerry Yao-Chieh Hu, Hude Liu, Hong-Yu Chen, Weimin Wu, Han Liu
发布日期: 4/23/2025
arXiv ID: oai:arXiv.org:2504.15956v1

摘要

arXiv:2504.15956v1 类型: cross 摘要: 我们证明了通过线性变换,(i) 两层自注意力和 (ii) 一层自注意力后跟一个softmax函数,都可以作为紧凑域上连续序列到序列函数的通用逼近器。我们的主要技术是一种新的基于插值的方法,用于分析注意力的内部机理。这导致我们得出关键洞察:自注意力能够以任意精度逼近广义ReLU函数,因此涵盖了多种已知的通用逼近器。基于这些结果,我们展示了仅两层多头注意力就足够作为序列到序列的通用逼近器。相比之下,先前的工作依靠前馈网络来证明Transformer的通用逼近性质。此外,我们扩展了这些技术,展示了仅注意力层能够逼近各种上下文中的统计模型。我们相信这些技术具有独立的兴趣。