LLM2D

摘要

我们提出了一种新的神经网络架构，即在超球面上进行表示学习的归一化Transformer (nGPT)。在nGPT中，所有构成嵌入、MLP、注意力矩阵和隐藏状态的向量都进行单位范数归一化。令牌的输入流在超球面的表面上移动，每一层都朝着目标输出预测贡献一个位移。这些位移由MLP和注意力块定义，它们向量的分量也位于同一个超球面上。实验表明，nGPT学习速度快得多，将达到相同精度的训练步骤数量减少了4到20倍，具体取决于序列长度。