LLM2D

摘要

arXiv:2503.07137v3 宣布类型: 替换交叉摘要：人工智能（AI）已经在许多领域取得了惊人的成就，特别是在基础大型模型的发展突破之后。这些大型模型利用其大量的训练数据，为广泛下游任务提供了灵活的解决方案。然而，随着现代数据集变得越来越多样化和复杂，大型AI模型的发展面临两大挑战：（1）巨大的计算资源消耗和部署困难，以及（2）适应异构和复杂数据的难度，这限制了模型的应用性。专家混合模型（MoE）最近引起了广泛关注，通过动态选择和激活最相关的子模型来处理输入数据，来解决这些挑战。研究表明，MoE可以在资源更少的情况下显著提高模型性能和效率，尤其在处理大规模、多模态数据方面表现出色。鉴于MoE在各个领域所展示出的巨大潜力，迫切需要对其在许多重要领域的最新进展进行全面总结。现有的MoE综述存在一些局限性，例如过时或缺乏对某些关键领域的讨论，我们旨在弥补这些差距。在这篇文章中，我们首先介绍了MoE的基本设计，包括门控函数、专家网络、路由机制、训练策略和系统设计。然后，我们探讨了MoE在连续学习、元学习、多任务学习和强化学习等重要机器学习范式中的算法设计。此外，我们总结了旨在理解MoE的理论研究，并回顾了其在计算机视觉和自然语言处理中的应用。最后，我们讨论了有前景的未来研究方向。