LLM2D
欧洲大型语言模型进展报告
Progress Report: Towards European LLMs
作者: Mehdi Ali, Michael Fromm, Klaudia Thellmann, Jan Ebert, Alexander Arno Weber, Richard Rutmann, Charvi Jain, Max L\"ubbering, Daniel Steinigen, Johannes Leveling, Katrin Klug, Jasper Schulze Buschhoff, Lena Jurkschat, Hammam Abdelwahab, Benny J\"org Stein, Karl-Heinz Sylla, Pavel Denisov, Nicolo Brandizzi, Qasid Saleem, Bhowmick Anirban, Chelsea John, Pedro Ortiz Suarez, Malte Ostendorff, Alex Jude, Lalith Manjunath, Samuel Weinbach, Carolin Penke, Shima Asaadi, Fabio Barth, Rafet Sifa, Fabian K\"uch, Ren\'e J\"akel, Georg Rehm, Stefan Kesselheim, Joachim K\"ohler, Nicolas Flores-Herr
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.03730v1

摘要

我们展示了 OpenGPT-X 项目的初步结果。目前,该项目已开发出两种多语言大型语言模型,旨在通过支持欧盟所有 24 种官方语言来拥抱欧洲的语言多样性。我们的模型在约 60% 的非英语数据组成的数据集上进行训练,并使用定制的多语言分词器,解决了现有大型语言模型主要侧重于英语或少数资源丰富的语言的局限性。我们详细介绍了模型的开发原则、数据处理技术、分词器优化和训练方法。模型在多语言基准测试中展现出具有竞争力的性能,这体现在其在欧洲版本的 ARC、HellaSwag、MMLU 和 TruthfulQA 上的性能。