摘要
arXiv:2405.04620v5 Announce Type: replace-cross
摘要:在本文中,我们通过在路径积分正式框架内重新解释 Transformer 算法的核心机制,提出了 Transformer 算法的泛化形式。在这种视角下,注意力机制被重新构建为一个过程,该过程整合了通向未来标记状态的所有可能过渡路径,时间演变由前馈网络控制。通过系统地将 Transformer 的每个组件映射到路径积分公式中的对应组件,我们获得了更简洁和高效的表示,在这种表示中,序列的上下文信息被凝聚成类似记忆的片段。这些片段在Transformer层之间递归处理,从而实现更有效的长期信息保留。我们通过 Passkey 检索任务和总结任务验证了这种方法的有效性,展示了所提出的方法在保留历史信息的同时,其内存使用量随着序列长度呈线性增长。这与标准注意力机制中通常观察到的非线性内存增长形成对比。我们期望这种受量子启发的 Transformer 架构的泛化将为提高未来Transformer模型的效率和表达能力开辟新的途径。