LLM2D

摘要

arXiv:2503.07137v2 宣布类型: 替换-交叉摘要：人工智能（AI）在许多领域取得了令人瞩目的成功，尤其是在基础大型模型的发展突破方面。这些大型模型凭借其充足的训练数据，为多种下游任务提供了多功能的解决方案。然而，随着现代数据集变得越来越多样和复杂，大型AI模型的开发面临两大主要挑战：（1）巨大的计算资源消耗和部署困难，（2）难以适应异构和复杂数据，这限制了模型的可用性。混合专家（MoE）模型近年来受到了广泛关注，通过动态选择和激活与输入数据最相关的子模型来处理数据。研究表明，MoEs可以在较少资源下显著提高模型性能和效率，特别是在处理大规模、多模态数据方面尤为出色。鉴于MoE在各个领域展现出的巨大潜力，迫切需要对MoE在许多重要领域中的最新进展进行全面总结。现有的MoE综述文章存在局限性，如过时或缺乏对某些关键领域的讨论，我们旨在弥补这些差距。在本文中，我们首先介绍了MoE的基本设计，包括门控函数、专家网络、路由机制、训练策略和系统设计。然后，我们探讨了MoE在连续学习、元学习、多任务学习和增强学习等重要机器学习范式中的算法设计。此外，我们总结了旨在理解MoE的理论研究，并回顾了其在计算机视觉和自然语言处理中的应用。最后，我们讨论了具有前景的未来研究方向。