LLM2D
视觉自回归变换器的通用逼近能力
Universal Approximation of Visual Autoregressive Transformers
作者: Yifang Chen, Xiaoyu Li, Yingyu Liang, Zhenmei Shi, Zhao Song
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.06167v1

摘要

arXiv:2502.06167v1 Announce Type: cross 摘要:我们研究了基于变换器的基础模型的基本极限,将我们的分析扩展到包括视觉自回归(VAR)变换器。VAR 代表了使用一种新颖的、可扩展的、从粗到细的“下一尺度预测”框架生成图像的一大步。这些模型设定了新的质量标准,超越了所有之前的方法,包括扩散变换器,在图像合成任务中也具有最先进的性能。我们的主要贡献表明,在单头VAR变换器中,具有单个自注意力层和单个插值层的VAR变换器是普适的。从统计角度来看,我们证明了这种简单的VAR变换器是任意图像到图像利普希茨函数的通用逼近器。此外,我们展示了流基自回归变换器继承了类似的逼近能力。我们的结果为有效的、计算效率高的VAR变换器策略提供了重要的设计原则,可以用于将其实用性扩展到更复杂的VAR模型,以及其他相关领域。