LLM2D
nGPT:基于超球面表示学习的归一化Transformer
nGPT: Normalized Transformer with Representation Learning on the Hypersphere
作者: Ilya Loshchilov, Cheng-Ping Hsieh, Simeng Sun, Boris Ginsburg
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2410.01131v1

摘要

我们提出了一种新的神经网络架构,即在超球面上进行表示学习的归一化Transformer (nGPT)。在nGPT中,所有构成嵌入、MLP、注意力矩阵和隐藏状态的向量都进行单位范数归一化。令牌的输入流在超球面的表面上移动,每一层都朝着目标输出预测贡献一个位移。这些位移由MLP和注意力块定义,它们向量的分量也位于同一个超球面上。实验表明,nGPT学习速度快得多,将达到相同精度的训练步骤数量减少了4到20倍,具体取决于序列长度。