LLM2D
远程大语言模型:专门为电信领域设计的一系列专业大型语言模型
Tele-LLMs: A Series of Specialized Large Language Models for Telecommunications
作者: Ali Maatouk, Kenny Chirino Ampudia, Rex Ying, Leandros Tassiulas
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2409.05314v3

摘要

arXiv:2409.05314v3 宣告类型: replace-cross 摘要:大型语言模型(LLMs)的出现对各个领域产生了显著影响,从自然语言处理到医学和金融等产业。然而,尽管它们迅速普及,LLMs 在电信领域的应用仍然有限,通常依赖于缺乏专门领域特化的通用模型。这种缺乏专业化导致在处理电信特定的技术术语及其相关的数学表示时表现不佳。本文通过首先创建并传播 Tele-Data,这是一个从相关来源收集的全面的电信材料数据集,以及 Tele-Eval,一个为该领域量身定制的大规模问答数据集,来解决这一缺口。通过广泛的实验,我们探讨了将LLMs 调适到电信领域最有效的训练技术,从不同电信方面分布专业知识的考察到采用参数高效技术。我们还研究了不同规模模型在调适过程中的行为,并分析了其培训数据对这种行为的影响。利用这些发现,我们开发并开源了 Tele-LLMs,这是第一个参数范围从1B到8B的专门针对电信领域的语言模型系列。我们的评估表明,这些模型在 Tele-Eval 和与电信相关的文献任务中优于通用模型,同时保留了它们之前获得的能力,从而避免了灾难性遗忘现象。