LLM2D

摘要

arXiv:2504.15956v1 类型: cross 摘要: 我们证明了通过线性变换，(i) 两层自注意力和 (ii) 一层自注意力后跟一个softmax函数，都可以作为紧凑域上连续序列到序列函数的通用逼近器。我们的主要技术是一种新的基于插值的方法，用于分析注意力的内部机理。这导致我们得出关键洞察：自注意力能够以任意精度逼近广义ReLU函数，因此涵盖了多种已知的通用逼近器。基于这些结果，我们展示了仅两层多头注意力就足够作为序列到序列的通用逼近器。相比之下，先前的工作依靠前馈网络来证明Transformer的通用逼近性质。此外，我们扩展了这些技术，展示了仅注意力层能够逼近各种上下文中的统计模型。我们相信这些技术具有独立的兴趣。