摘要
arXiv:2502.13502v1 类型:交叉
摘要:我们展示了具有幂律解码表示的大语言模型(PLDR-LLM)是一种基础模型,其演绎输出在小扰动范围内是不变张量。PLDR-LLM 学习了演绎输出的奇异性条件,使得在推理时,用于生成演绎输出的幂律图注意力(PLGA)的深层神经网络能够被一个名为 $\mathbf{G}_{LM}$ 的能量曲率张量所取代。我们证明了可以通过简单的实现 $\mathbf{G}_{LM}$ 缓存(G-cache)和 KV 缓存来提高推理时间。在缓存后,演绎输出的不变性和通用性在极高的保真度上保持不变,RMSE 和行列式值在 15 位小数位上相同,零-shot 基准得分未发生变化。消融研究显示,学习得到的演绎输出从使用传输、随机初始化或恒等张量作为常数张量算子预训练的模型具有不同的损失和准确率特征。带有标度点积注意(SDPA)的 LLM 是 PLDR-LLM 的一种特殊情况,其中 $\mathbf{G}_{LM}$ 预定义为恒等矩阵。观察到的不变性特征在训练和推理阶段之间引入了一种新的不对称性,并且在缓存的情况下保持一致。我们列出了学习得到的奇异性条件下演绎输出的常见特征。我们提供了一个带有 KV 缓存和 G 缓存的 PLDR-LLM 的训练和推理框架的实现。