摘要
我们提出了一种基于幂律解码器表示的大型语言模型(PLDR-LLM),该模型利用幂律图注意力机制进行非线性与线性变换,从而生成明确的演绎和归纳输出。我们使用32的小批量大小和来自RefinedWeb数据集的约80亿个token对不同层大小的PLDR-LLM进行了预训练,结果表明,在零样本和少样本设置下,它们与文献中报道的具有相似模型规模的缩放点积LLM相比,取得了具有竞争力的性能。我们证明了PLDR-LLM的演绎输出可用于比较模型特性,或通过引入有向无环图(DAG)损失作为度量和正则化器来提高性能。我们的结果表明,初始最大学习率和预热步数对预训练过程中的演绎输出具有持久的影响。我们详细描述了PLDR-LLM的架构、实现和预训练过程。