LLM2D
对称功率变压器的共形变换
Conformal Transformations for Symmetric Power Transformers
作者: Saurabh Kumar, Jacob Buckman, Carles Gelada, Sean Zhang
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2503.03269v2

摘要

arXiv:2503.03269v2 宣布类型: replace-cross 摘要:具有线性注意力的变换器在计算上比基于softmax的变换器具有显著优势,但通常会表现出性能下降。对称幂(sympow)变换器,一种特定类型的线性变换器,通过利用对称张量嵌入来部分解决这一性能差距,实现了与softmax变换器相当的性能。然而,sympow变换器中递归状态的有限容量限制了其保留信息的能力,在扩展训练或评估上下文长度时导致性能下降。为了解决这一问题,我们提出了符合对称幂(conformal-sympow)变换器,在此变换器中,通过数据依赖的乘性门控动态释放容量,并使用数据依赖的旋转嵌入适当地存储信息。在LongCrawl64数据集上的初步实验表明,conformal-sympow克服了sympow变换器的局限性,在扩展的训练和评估上下文中实现了稳健的性能。