LLM2D

摘要

arXiv:2405.04620v5 Announce Type: replace-cross 摘要：在本文中，我们通过在路径积分正式框架内重新解释 Transformer 算法的核心机制，提出了 Transformer 算法的泛化形式。在这种视角下，注意力机制被重新构建为一个过程，该过程整合了通向未来标记状态的所有可能过渡路径，时间演变由前馈网络控制。通过系统地将 Transformer 的每个组件映射到路径积分公式中的对应组件，我们获得了更简洁和高效的表示，在这种表示中，序列的上下文信息被凝聚成类似记忆的片段。这些片段在Transformer层之间递归处理，从而实现更有效的长期信息保留。我们通过 Passkey 检索任务和总结任务验证了这种方法的有效性，展示了所提出的方法在保留历史信息的同时，其内存使用量随着序列长度呈线性增长。这与标准注意力机制中通常观察到的非线性内存增长形成对比。我们期望这种受量子启发的 Transformer 架构的泛化将为提高未来Transformer模型的效率和表达能力开辟新的途径。