LLM2D

摘要

arXiv:2411.12502v2 公告类型: replace-cross 摘要：神经过程（NPs）是一类快速发展的模型，旨在直接建模随机过程的后验预测分布。最初作为拟合受限于 \(\mathcal{O}(n^3)\) 运行时间复杂度的高斯过程（GPs）的可扩展替代方案而开发，最现代的最准确的 NPs 经常能够与 GPs 挤身并列，但仍因注意力机制的原因遭受 \(\mathcal{O}(n^2)\) 的瓶颈。我们介绍了 Transformer 神经过程 - 核回归（TNP-KR），这是一种可扩展的 NP，具有以下特点：（1）核回归块（KRBlock），一个简单、可扩展且参数高效的 transformer 块，其复杂度为 \(\mathcal{O}(n_c^2 + n_c n_t)\)，其中 \(n_c\) 和 \(n_t\) 分别是上下文点数和测试点数；（2）核基注意力偏置；以及（3）两种新的注意力机制：扫描注意力（SA），一种基于扫描的、内存高效的注意力机制，当与核基偏置结合使用时，可以使 TNP-KR 具有平移不变性，以及深核注意力（DKA），一种类似于 Performer 风格的注意力机制，隐式地包含了一个距离偏置并进一步将复杂度降低到 \(\mathcal{O}(n_c)\)。这些增强功能使得 TNP-KR 的两种变体能够在单一 24GB GPU 上以不到一分钟的时间对超过 100 万个上下文点进行近 1 百万测试点的推断。在涵盖元回归、贝叶斯优化、图像补全和流行病学的基准测试中，配备 DKA 的 TNP-KR 在几乎所有基准测试中均优于其 Performer 对手，而配备 SA 的 TNP-KR 达到了最先进的成果。