LLM2D
混合专家模型综述:算法、理论与应用
A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications
作者: Siyuan Mu, Sen Lin
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2503.07137v2

摘要

arXiv:2503.07137v2 宣布类型: 替换-交叉 摘要:人工智能(AI)在许多领域取得了令人瞩目的成功,尤其是在基础大型模型的发展突破方面。这些大型模型凭借其充足的训练数据,为多种下游任务提供了多功能的解决方案。然而,随着现代数据集变得越来越多样和复杂,大型AI模型的开发面临两大主要挑战:(1)巨大的计算资源消耗和部署困难,(2)难以适应异构和复杂数据,这限制了模型的可用性。混合专家(MoE)模型近年来受到了广泛关注,通过动态选择和激活与输入数据最相关的子模型来处理数据。研究表明,MoEs可以在较少资源下显著提高模型性能和效率,特别是在处理大规模、多模态数据方面尤为出色。鉴于MoE在各个领域展现出的巨大潜力,迫切需要对MoE在许多重要领域中的最新进展进行全面总结。现有的MoE综述文章存在局限性,如过时或缺乏对某些关键领域的讨论,我们旨在弥补这些差距。在本文中,我们首先介绍了MoE的基本设计,包括门控函数、专家网络、路由机制、训练策略和系统设计。然后,我们探讨了MoE在连续学习、元学习、多任务学习和增强学习等重要机器学习范式中的算法设计。此外,我们总结了旨在理解MoE的理论研究,并回顾了其在计算机视觉和自然语言处理中的应用。最后,我们讨论了具有前景的未来研究方向。