LLM2D

摘要

我们展示了 OpenGPT-X 项目的初步结果。目前，该项目已开发出两种多语言大型语言模型，旨在通过支持欧盟所有 24 种官方语言来拥抱欧洲的语言多样性。我们的模型在约 60% 的非英语数据组成的数据集上进行训练，并使用定制的多语言分词器，解决了现有大型语言模型主要侧重于英语或少数资源丰富的语言的局限性。我们详细介绍了模型的开发原则、数据处理技术、分词器优化和训练方法。模型在多语言基准测试中展现出具有竞争力的性能，这体现在其在欧洲版本的 ARC、HellaSwag、MMLU 和 TruthfulQA 上的性能。