LLM2D

摘要

GPU 计算能力的快速发展已经超过了内存容量和带宽增长的速度，这在大型语言模型 (LLM) 推理中造成了瓶颈。训练后量化是解决 LLM 推理中与内存相关的瓶颈的主要方法，但它在低于 4 位精度时会遭受严重的性能下降。本文通过研究低位宽模型（特别是三元语言模型 (TriLMs)）的预训练来解决这些挑战，作为传统浮点模型 (FloatLMs) 及其训练后量化版本 (QuantLMs) 的替代方案。我们提出了 Spectra LLM 套件，这是第一个涵盖多种位宽的开放式 LLM 套件，包括 FloatLMs、QuantLMs 和 TriLMs，参数范围从 99M 到 3.9B，在 300B 个 token 上进行训练。我们全面的评估表明，TriLMs 在模型大小（以位计）方面具有优越的扩展行为。令人惊讶的是，在超过十亿个参数的规模上，TriLMs 在各种基准测试中始终优于其 QuantLM 和 FloatLM 对应模型，前提是位大小相同。值得注意的是，3.9B 参数的 TriLM 在所有基准测试中都与 FloatLM 3.9B 的性能相匹配，尽管其位数少于 FloatLM 830M。总的来说，这项研究为低位宽语言模型的可行性和可扩展性提供了宝贵的见解，为开发更高效的 LLM 铺平了道路。为了增进对低位宽模型的理解，我们将在 https://github.com/NolanoOrg/SpectraSuite 上发布 500 多个 Spectra 套件的中间检查点。