LLM2D

摘要

GPU 算力的快速发展已经超过了内存容量和带宽的增长速度，这在大型语言模型 (LLM) 推理中造成了瓶颈。训练后量化是解决 LLM 推理中内存相关瓶颈的主要方法，但它在低于 4 位精度时会遭受显著的性能下降。本文通过研究低位宽模型（特别是三元语言模型 (TriLMs)）的预训练来解决这些挑战，作为传统浮点模型 (FloatLMs) 及其训练后量化版本 (QuantLMs) 的替代方案。我们提出了 Spectra LLM 套件，这是第一个涵盖多个位宽的开放式 LLM 套件，包括 FloatLMs、QuantLMs 和 TriLMs，参数范围从 99M 到 3.9B，在 300B 个标记上进行训练。我们全面的评估表明，TriLMs 在模型大小（以位计）方面表现出优越的扩展行为。令人惊讶的是，在超过十亿个参数的规模上，TriLMs 在各种基准测试中始终优于给定位大小的 QuantLM 和 FloatLM。值得注意的是，3.9B 参数的 TriLM 在所有基准测试中都匹配了 FloatLM 3.9B 的性能，尽管其位数少于 FloatLM 830M。总的来说，这项研究为低位宽语言模型的可行性和可扩展性提供了宝贵的见解，为开发更高效的 LLM 铺平了道路。为了更好地理解低位宽模型，我们在 \href{https://github.com/NolanoOrg/SpectraSuite}{https://github.com/NolanoOrg/SpectraSuite} 发布了 Spectra 套件的 500 多个中间检查点。