LLM2D
基于提示的完全循环模型的通用上下文近似
Universal In-Context Approximation By Prompting Fully Recurrent Models
作者: Aleksandar Petrov, Tom A. Lamb, Alasdair Paren, Philip H. S. Torr, Adel Bibi
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2406.01424v2

摘要

零样本学习和上下文学习使模型无需微调即可解决任务,这对于开发生成模型解决方案至关重要。因此,理解一个预训练模型是否可以通过提示来近似任何函数,即它是否是一个通用的上下文近似器,至关重要。虽然最近的研究表明 Transformer 模型确实具有此属性,但这些结果依赖于其注意力机制。因此,这些发现不适用于完全递归的架构,例如 RNN、LSTM 和越来越流行的 SSM。我们证明了 RNN、LSTM、GRU、线性 RNN 和线性门控架构(例如 Mamba 和 Hawk/Griffin)也可以作为通用的上下文近似器。为了简化我们的论证,我们引入了一种名为 LSRL 的编程语言,它编译为这些完全递归的架构。LSRL 对于进一步研究完全递归模型(例如构建可解释性基准)可能具有独立的意义。我们还研究了乘法门控的作用,并观察到包含这种门控的架构(例如 LSTM、GRU、Hawk/Griffin)可以更稳定地实现某些操作,使其成为实际上下文通用近似应用中更可行的候选者。