摘要
GPU 计算能力的快速发展已经超过了内存容量和带宽增长的速度,这在大型语言模型 (LLM) 推理中造成了瓶颈。训练后量化是解决 LLM 推理中与内存相关的瓶颈的主要方法,但它在低于 4 位精度时会遭受严重的性能下降。本文通过研究低位宽模型(特别是三元语言模型 (TriLMs))的预训练来解决这些挑战,作为传统浮点模型 (FloatLMs) 及其训练后量化版本 (QuantLMs) 的替代方案。我们提出了 Spectra LLM 套件,这是第一个涵盖多种位宽的开放式 LLM 套件,包括 FloatLMs、QuantLMs 和 TriLMs,参数范围从 99M 到 3.9B,在 300B 个 token 上进行训练。我们全面的评估表明,TriLMs 在模型大小(以位计)方面具有优越的扩展行为。令人惊讶的是,在超过十亿个参数的规模上,TriLMs 在各种基准测试中始终优于其 QuantLM 和 FloatLM 对应模型,前提是位大小相同。值得注意的是,3.9B 参数的 TriLM 在所有基准测试中都与 FloatLM 3.9B 的性能相匹配,尽管其位数少于 FloatLM 830M。总的来说,这项研究为低位宽语言模型的可行性和可扩展性提供了宝贵的见解,为开发更高效的 LLM 铺平了道路。
为了增进对低位宽模型的理解,我们将在 https://github.com/NolanoOrg/SpectraSuite 上发布 500 多个 Spectra 套件的中间检查点。