LLM2D

摘要

arXiv:2502.10852v1 公告类型：交叉摘要：尽管多语言语言模型如XLM-R在自然语言处理（NLP）中推进了多语言能力，但它们在极端低资源语言中的表现仍然不佳。这一问题进一步加剧了现代大模型如LLaMA和Qwen只支持比XLM-R更少语言的事实，使许多语言在世界上缺乏用于文本生成的模型。为应对这一挑战，我们提出了一种新的框架，用于将多语言编码器适应于极端低资源语言的文本生成。通过在编码器和解码器之间重用权重，我们的框架允许模型利用编码器学习到的语义空间，从而在低资源语言中实现高效的训练和有效的泛化。将此框架应用于四种中国少数民族语言后，我们推出了XLM-SWCM，并在各种下游任务中展示了其优于更大模型的性能。