LLM2D

摘要

零样本学习和上下文学习使模型无需微调即可解决任务，这对于开发生成模型解决方案至关重要。因此，理解一个预训练模型是否可以通过提示来近似任何函数，即它是否是一个通用的上下文近似器，至关重要。虽然最近的研究表明 Transformer 模型确实具有此属性，但这些结果依赖于其注意力机制。因此，这些发现不适用于完全递归的架构，例如 RNN、LSTM 和越来越流行的 SSM。我们证明了 RNN、LSTM、GRU、线性 RNN 和线性门控架构（例如 Mamba 和 Hawk/Griffin）也可以作为通用的上下文近似器。为了简化我们的论证，我们引入了一种名为 LSRL 的编程语言，它编译为这些完全递归的架构。LSRL 对于进一步研究完全递归模型（例如构建可解释性基准）可能具有独立的意义。我们还研究了乘法门控的作用，并观察到包含这种门控的架构（例如 LSTM、GRU、Hawk/Griffin）可以更稳定地实现某些操作，使其成为实际上下文通用近似应用中更可行的候选者。