LLM2D

摘要

arXiv:2501.07890v2 宣告类型: 替换交叉摘要：传统的MoE（Mixture-of-Experts）网络通过利用多个较小的专家模型而非单一的大规模网络而受益。然而，这些专家通常独立运作，关于是否可以通过连接这些模型来增强MoE网络的性能这个问题尚未得到解答。为了解决这一问题，我们提出了GRAPHMOE，这是一种通过在Pseudo GraphMoE网络上构建自重思机制来增强语言模型认知深度的新型方法。GRAPHMOE采用递归路由策略模拟迭代思维步骤，从而促进专家节点之间信息的流动。我们使用Low-Rank Adaptation（LoRA）技术实现了GRAPHMOE架构，并在各种基准数据集上进行了广泛的实验。实验结果表明，GRAPHMOE优于其他基于LoRA的模型，达到了最先进的性能（SOTA）。此外，这项研究探索了一种新颖的递归路由策略，可能会启发进一步改进语言模型推理能力的发展。