摘要
arXiv:2503.07137v3 宣布类型: 替换交叉
摘要:人工智能(AI)已经在许多领域取得了惊人的成就,特别是在基础大型模型的发展突破之后。这些大型模型利用其大量的训练数据,为广泛下游任务提供了灵活的解决方案。然而,随着现代数据集变得越来越多样化和复杂,大型AI模型的发展面临两大挑战:(1)巨大的计算资源消耗和部署困难,以及(2)适应异构和复杂数据的难度,这限制了模型的应用性。专家混合模型(MoE)最近引起了广泛关注,通过动态选择和激活最相关的子模型来处理输入数据,来解决这些挑战。研究表明,MoE可以在资源更少的情况下显著提高模型性能和效率,尤其在处理大规模、多模态数据方面表现出色。鉴于MoE在各个领域所展示出的巨大潜力,迫切需要对其在许多重要领域的最新进展进行全面总结。现有的MoE综述存在一些局限性,例如过时或缺乏对某些关键领域的讨论,我们旨在弥补这些差距。在这篇文章中,我们首先介绍了MoE的基本设计,包括门控函数、专家网络、路由机制、训练策略和系统设计。然后,我们探讨了MoE在连续学习、元学习、多任务学习和强化学习等重要机器学习范式中的算法设计。此外,我们总结了旨在理解MoE的理论研究,并回顾了其在计算机视觉和自然语言处理中的应用。最后,我们讨论了有前景的未来研究方向。