LLM2D

摘要

arXiv:2502.06167v1 Announce Type: cross 摘要：我们研究了基于变换器的基础模型的基本极限，将我们的分析扩展到包括视觉自回归（VAR）变换器。VAR 代表了使用一种新颖的、可扩展的、从粗到细的“下一尺度预测”框架生成图像的一大步。这些模型设定了新的质量标准，超越了所有之前的方法，包括扩散变换器，在图像合成任务中也具有最先进的性能。我们的主要贡献表明，在单头VAR变换器中，具有单个自注意力层和单个插值层的VAR变换器是普适的。从统计角度来看，我们证明了这种简单的VAR变换器是任意图像到图像利普希茨函数的通用逼近器。此外，我们展示了流基自回归变换器继承了类似的逼近能力。我们的结果为有效的、计算效率高的VAR变换器策略提供了重要的设计原则，可以用于将其实用性扩展到更复杂的VAR模型，以及其他相关领域。