摘要
arXiv:2501.13230v2 宣布类型: 替换交叉
摘要: 我们引入了Centaurus网络,这是一种由广义状态空间模型(SSM)块组成的一类网络,在训练过程中,SSM操作可以视为张量收缩。随后,可以系统地确定每个SSM块中张量收缩的最佳顺序,以最大限度地提高训练效率。这使得在设计SSM块时具有更大的灵活性,超越了通常实施的深度可分离配置。新的设计选择将从经典卷积块中汲取灵感,包括分组卷积、全卷积和瓶颈块。我们通过将这些块的混合体构建成Centaurus网络,以在网络规模、性能以及训练和推理期间的内存和计算效率之间取得平衡。我们展示了这种异构网络设计在包括关键词定位、语音去噪和自动语音识别(ASR)等原始音频处理任务中优于其同质对应物。对于ASR,Centaurus是第一个能够在不使用非线性递归(LSTMs)、显式卷积(CNNs)或(替代)注意力机制的情况下,实现具有竞争力性能的完全基于状态空间的网络。源代码作为补充材料可从 https://openreview.net/forum?id=PkpNRmBZ32 获得。