LLM2D
谱:对三元、量化和 FP16 语言模型的全面研究
Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models
作者: Ayush Kaushal, Tejas Vaidhya, Tejas Pandey, Aaryan Bhagat, Irina Rish
发布日期: 9/27/2024
arXiv ID: oai:arXiv.org:2407.12327v2

摘要

训练后量化是解决 LLM 推理中内存相关瓶颈的领先方法,但不幸的是,它在低于 4 位精度时会遭受显著的性能下降。另一种方法包括直接以低位宽(例如,二进制或三元模型)训练压缩模型。然而,此类模型的性能、训练动态和扩展趋势尚不清楚。为了解决这个问题,我们训练并公开发布了 Spectra LLM 套件,该套件包含 54 个语言模型,参数范围从 99M 到 3.9B,在 300B 个标记上进行训练。Spectra 包括 FloatLM、训练后量化的 QuantLM(3、4、6 和 8 位)和三元 LLM(TriLM)——我们改进的三元语言建模架构,在给定大小(以位计)的三元模型中显著优于以前提出的模型,在规模上与半精度模型相匹配。例如,TriLM 3.9B(按位)比半精度 FloatLM 830M 小,但在常识推理和知识基准测试中与半精度 FloatLM 3.9B 相匹配。然而,TriLM 3.9B 的毒性和刻板印象与 FloatLM 3.9B 一样,后者的尺寸是前者的六倍。此外,TriLM 3.9B 在验证拆分和基于 Web 的语料库上的困惑度落后于 FloatLM,但在 Lambada 和 PennTreeBank 等噪声较小的数据集上表现更好。 为了更好地理解低位宽模型,我们在 \href{https://github.com/NolanoOrg/SpectraSuite}{https://github.com/NolanoOrg/SpectraSuite} 发布了 500 多个 Spectra 套件的中间检查点。