LLM2D

摘要

arXiv:2411.12502v3 Announce Type: replace-cross 摘要：神经过程(NP)是一类快速发展的模型，旨在直接建模随机过程的后验预测分布。最初作为高斯过程(GP)的一种可扩展替代方案开发，而GP由于其$O(n^3)$的运行时间复杂度受限，最现代的NP通常可以与GP匹敌，但仍然由于其注意力机制存在$O(n^2)$的瓶颈。我们引入了变换器神经过程-核回归(TNP-KR)，这是一种可扩展的NP，其中包括：(1) 一个核回归块(KRBlock)，这是一个简单、可扩展、参数高效的变换器块，其复杂度为$O(n_c^2 + n_c n_t)$，其中$n_c$和$n_t$分别是上下文点和测试点的数量；(2) 基于核的注意力偏差；以及(3) 两种新的注意力机制：扫描注意力(SA)，一种记忆高效的基于扫描的注意力机制，当与基于核的偏差结合使用时，可以使TNP-KR具有平移不变性，以及深度核注意力(DKA)，一种类似于Performers的注意力机制，隐式地引入了距离偏差，并进一步将复杂度降低到$O(n_c)$。这些增强功能使两种TNP-KR变种能够在单个24GB GPU上的一分钟内进行超过100万测试点和超过10万上下文点的推理。在涵盖了元回归、贝叶斯优化、图像完成和流行病学等多个基准测试中，使用DKA的TNP-KR几乎在所有基准测试中都优于其Performers对应版本，而使用SA的TNP-KR则达到最佳效果。