LLM2D
变压器神经过程 - 核回归
Transformer Neural Processes - Kernel Regression
作者: Daniel Jenson, Jhonathan Navott, Mengyan Zhang, Makkunda Sharma, Elizaveta Semenova, Seth Flaxman
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2411.12502v2

摘要

arXiv:2411.12502v2 公告类型: replace-cross 摘要:神经过程(NPs)是一类快速发展的模型,旨在直接建模随机过程的后验预测分布。最初作为拟合受限于 \(\mathcal{O}(n^3)\) 运行时间复杂度的高斯过程(GPs)的可扩展替代方案而开发,最现代的最准确的 NPs 经常能够与 GPs 挤身并列,但仍因注意力机制的原因遭受 \(\mathcal{O}(n^2)\) 的瓶颈。我们介绍了 Transformer 神经过程 - 核回归(TNP-KR),这是一种可扩展的 NP,具有以下特点:(1)核回归块(KRBlock),一个简单、可扩展且参数高效的 transformer 块,其复杂度为 \(\mathcal{O}(n_c^2 + n_c n_t)\),其中 \(n_c\) 和 \(n_t\) 分别是上下文点数和测试点数;(2)核基注意力偏置;以及(3)两种新的注意力机制:扫描注意力(SA),一种基于扫描的、内存高效的注意力机制,当与核基偏置结合使用时,可以使 TNP-KR 具有平移不变性,以及深核注意力(DKA),一种类似于 Performer 风格的注意力机制,隐式地包含了一个距离偏置并进一步将复杂度降低到 \(\mathcal{O}(n_c)\)。这些增强功能使得 TNP-KR 的两种变体能够在单一 24GB GPU 上以不到一分钟的时间对超过 100 万个上下文点进行近 1 百万测试点的推断。在涵盖元回归、贝叶斯优化、图像补全和流行病学的基准测试中,配备 DKA 的 TNP-KR 在几乎所有基准测试中均优于其 Performer 对手,而配备 SA 的 TNP-KR 达到了最先进的成果。