LLM2D
GRAPHMOE:通过引入自我反思机制放大混合专家网络的认知深度
GRAPHMOE: Amplifying Cognitive Depth of Mixture-of-Experts Network via Introducing Self-Rethinking Mechanism
作者: Chen Tang, Bo Lv, Zifan Zheng, Bohao Yang, Kun Zhao, Ning Liao, Xiaoxing Wang, Feiyu Xiong, Zhiyu Li, Nayu Liu, Jingchi Jiang
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2501.07890v2

摘要

arXiv:2501.07890v2 宣告类型: 替换交叉 摘要:传统的MoE(Mixture-of-Experts)网络通过利用多个较小的专家模型而非单一的大规模网络而受益。然而,这些专家通常独立运作,关于是否可以通过连接这些模型来增强MoE网络的性能这个问题尚未得到解答。为了解决这一问题,我们提出了GRAPHMOE,这是一种通过在Pseudo GraphMoE网络上构建自重思机制来增强语言模型认知深度的新型方法。GRAPHMOE采用递归路由策略模拟迭代思维步骤,从而促进专家节点之间信息的流动。我们使用Low-Rank Adaptation(LoRA)技术实现了GRAPHMOE架构,并在各种基准数据集上进行了广泛的实验。实验结果表明,GRAPHMOE优于其他基于LoRA的模型,达到了最先进的性能(SOTA)。此外,这项研究探索了一种新颖的递归路由策略,可能会启发进一步改进语言模型推理能力的发展。