LLM2D
高效的电信专用大语言模型:结合QLoRA和数字孪生数据的TSLAM-Mini
Efficient Telecom Specific LLM: TSLAM-Mini with QLoRA and Digital Twin Data
作者: Vignesh Ethiraj, Divya Vijay, Sidhanth Menon, Heblin Berscilla
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.07877v1

摘要

arXiv:2505.07877v1 宣告类型: cross 摘要:通用的大语言模型(LLMs),尽管从开放世界数据中积累了广泛的能力,但在面对实时电信应用中复杂的和专业化的具体需求时,通常表现出亚优性能。这一调查通过细致地微调NetoAI开发的TSLAM-Mini模型来解决这一关键限制。TSLAM-Mini是一个紧凑的(38亿参数)因果语言模型,结构上源自Phi-4 Mini Instruct 4B。微调过程利用了一个由100,000个样本组成的定制数据集,这些样本专门设计以解决20个关键的电信应用场景,涵盖网络基础、IP路由、MPLS、网络安全、自动化、OSS/BSS、RAN、移动核心、卫星通信、伦理AI等领域。该数据集是使用NetoAI的DigiTwin平台策划的,借助venerable网络领域专家和权威RFC文档的细致洞察,通过受到数字孪生范式启发的模拟,捕获了真实世界网络动态的高度保真表示。利用Quantized Low-Rank Adaptation(QLoRA),一种先进的Parameter Efficient Fine-Tuning(PEFT)技术,我们实现了显著的训练效率,并在资源受限的硬件上启用潜在部署。基于一个高容量的LLM(Qwen3-235B-A22B)作为自动裁判的新型评估框架,被确立以严格评估指令遵循准确性和响应质量。实验证据无可辩驳地证明了TSLAM-Mini在电信领域的优越能力,强调了领域特定数据集和PEFT方法在推动智能网络管理方面的深远效果。