LLM2D

摘要

训练后量化是解决 LLM 推理中内存相关瓶颈的领先方法，但不幸的是，它在低于 4 位精度时会遭受显著的性能下降。另一种方法包括直接以低位宽（例如，二进制或三元模型）训练压缩模型。然而，此类模型的性能、训练动态和扩展趋势尚不清楚。为了解决这个问题，我们训练并公开发布了 Spectra LLM 套件，该套件包含 54 个语言模型，参数范围从 99M 到 3.9B，在 300B 个标记上进行训练。Spectra 包括 FloatLM、训练后量化的 QuantLM（3、4、6 和 8 位）和三元 LLM（TriLM）——我们改进的三元语言建模架构，在给定大小（以位计）的三元模型中显著优于以前提出的模型，在规模上与半精度模型相匹配。例如，TriLM 3.9B（按位）比半精度 FloatLM 830M 小，但在常识推理和知识基准测试中与半精度 FloatLM 3.9B 相匹配。然而，TriLM 3.9B 的毒性和刻板印象与 FloatLM 3.9B 一样，后者的尺寸是前者的六倍。此外，TriLM 3.9B 在验证拆分和基于 Web 的语料库上的困惑度落后于 FloatLM，但在 Lambada 和 PennTreeBank 等噪声较小的数据集上表现更好。为了更好地理解低位宽模型，我们在 \href{https://github.com/NolanoOrg/SpectraSuite}{https://github.com/NolanoOrg/SpectraSuite} 发布了 500 多个 Spectra 套件的中间检查点。