摘要
训练后量化是解决 LLM 推理中内存相关瓶颈的领先方法,但不幸的是,它在低于 4 位精度时会遭受显著的性能下降。另一种方法包括直接以低位宽(例如,二进制或三元模型)训练压缩模型。然而,此类模型的性能、训练动态和扩展趋势尚不清楚。为了解决这个问题,我们训练并公开发布了 Spectra LLM 套件,该套件包含 54 个语言模型,参数范围从 99M 到 3.9B,在 300B 个标记上进行训练。Spectra 包括 FloatLM、训练后量化的 QuantLM(3、4、6 和 8 位)和三元 LLM(TriLM)——我们改进的三元语言建模架构,在给定大小(以位计)的三元模型中显著优于以前提出的模型,在规模上与半精度模型相匹配。例如,TriLM 3.9B(按位)比半精度 FloatLM 830M 小,但在常识推理和知识基准测试中与半精度 FloatLM 3.9B 相匹配。然而,TriLM 3.9B 的毒性和刻板印象与 FloatLM 3.9B 一样,后者的尺寸是前者的六倍。此外,TriLM 3.9B 在验证拆分和基于 Web 的语料库上的困惑度落后于 FloatLM,但在 Lambada 和 PennTreeBank 等噪声较小的数据集上表现更好。
为了更好地理解低位宽模型,我们在 \href{https://github.com/NolanoOrg/SpectraSuite}{https://github.com/NolanoOrg/SpectraSuite} 发布了 500 多个 Spectra 套件的中间检查点。