LLM2D

摘要

本文介绍了LOLA，这是一个大规模多语言大型语言模型，采用稀疏的专家混合Transformer架构，训练于超过160种语言。我们的架构和实现选择解决了在保持效率的同时利用语言多样性并避免多语言常见陷阱的挑战。我们对评估结果的分析显示，在自然语言生成和理解任务中具有竞争力的表现。此外，我们展示了学习到的专家路由机制如何利用隐含的系统发育语言模式，以潜在地缓解多语言的诅咒。我们深入探讨了训练过程、数据集分析以及对模型优缺点的平衡探索。作为一个开源模型，LOLA促进了可重复性，并为未来的研究提供了坚实的基础。我们的发现使得能够开发出计算效率高、跨语言性能强大且可扩展的多语言模型。