LLM2D
Home
Arxiv
返回列表
奇妙矩阵:用于语言建模任务的更高效、更有效架构
Wonderful Matrices: More Efficient and Effective Architecture for Language Modeling Tasks
作者:
Jingze Shi, Bingheng Wu, Ting Xie, Lu He
发布日期:
10/11/2024
arXiv ID:
oai:arXiv.org:2407.16958v3
摘要
近期研究表明,相对位置编码在选择性状态空间模型扫描算法中表现良好,而平衡SSM和Attention的架构则提高了算法的效率和有效性,同时专家混合的稀疏激活降低了训练成本。我们研究了在结构化状态空间双重算法中使用不同位置编码的有效性,以及更有效的SSD-Attn内部和外部函数混合方法,并设计了一种更高效的跨域专家混合方法。我们发现相同的矩阵在不同的算法中表现出色,这使我们能够建立一个新的混合稀疏架构:Cheems。与其他混合架构相比,它在语言建模任务中更加高效和有效。
查看原文
下载 PDF