LLM2D

摘要

最先进的生成式大型语言模型（LLM）的开发过度依赖于以英语为中心的标记器、词汇和预训练数据。尽管某些 LLM 具有多语言能力，但最近的研究表明，它们在生成非英语文本时的推理效率会下降。这会导致推理时间和成本增加。跨语言词汇适应（CVA）方法被提出用于将模型适应目标语言，旨在提高下游性能。然而，这些方法对提高生成式 LLM 推理效率的有效性尚未得到探索。在本文中，我们对五种 CVA 方法在四种生成式 LLM（包括单语和多语模型）中跨四种类型学上不同的语言和四种自然语言理解任务进行了实证研究。我们发现，CVA 显著促进了 LLM 推理速度提高，最高可达 271.5%。我们还表明，适应在更平衡的多语言数据上预训练的 LLM 会导致下游性能与原始模型相当。