摘要
arXiv:2501.07890v2 宣告类型: 替换交叉
摘要:传统的MoE(Mixture-of-Experts)网络通过利用多个较小的专家模型而非单一的大规模网络而受益。然而,这些专家通常独立运作,关于是否可以通过连接这些模型来增强MoE网络的性能这个问题尚未得到解答。为了解决这一问题,我们提出了GRAPHMOE,这是一种通过在Pseudo GraphMoE网络上构建自重思机制来增强语言模型认知深度的新型方法。GRAPHMOE采用递归路由策略模拟迭代思维步骤,从而促进专家节点之间信息的流动。我们使用Low-Rank Adaptation(LoRA)技术实现了GRAPHMOE架构,并在各种基准数据集上进行了广泛的实验。实验结果表明,GRAPHMOE优于其他基于LoRA的模型,达到了最先进的性能(SOTA)。此外,这项研究探索了一种新颖的递归路由策略,可能会启发进一步改进语言模型推理能力的发展。