LLM2D
Transformer 神经过程 - 核回归
Transformer Neural Processes - Kernel Regression
作者: Daniel Jenson, Jhonathan Navott, Mengyan Zhang, Makkunda Sharma, Elizaveta Semenova, Seth Flaxman
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2411.12502v3

摘要

arXiv:2411.12502v3 Announce Type: replace-cross 摘要:神经过程(NP)是一类快速发展的模型,旨在直接建模随机过程的后验预测分布。最初作为高斯过程(GP)的一种可扩展替代方案开发,而GP由于其$O(n^3)$的运行时间复杂度受限,最现代的NP通常可以与GP匹敌,但仍然由于其注意力机制存在$O(n^2)$的瓶颈。我们引入了变换器神经过程-核回归(TNP-KR),这是一种可扩展的NP,其中包括:(1) 一个核回归块(KRBlock),这是一个简单、可扩展、参数高效的变换器块,其复杂度为$O(n_c^2 + n_c n_t)$,其中$n_c$和$n_t$分别是上下文点和测试点的数量;(2) 基于核的注意力偏差;以及(3) 两种新的注意力机制:扫描注意力(SA),一种记忆高效的基于扫描的注意力机制,当与基于核的偏差结合使用时,可以使TNP-KR具有平移不变性,以及深度核注意力(DKA),一种类似于Performers的注意力机制,隐式地引入了距离偏差,并进一步将复杂度降低到$O(n_c)$。这些增强功能使两种TNP-KR变种能够在单个24GB GPU上的一分钟内进行超过100万测试点和超过10万上下文点的推理。在涵盖了元回归、贝叶斯优化、图像完成和流行病学等多个基准测试中,使用DKA的TNP-KR几乎在所有基准测试中都优于其Performers对应版本,而使用SA的TNP-KR则达到最佳效果。