LLM2D
光谱:三元、量化和 FP16 语言模型的全面研究
Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models
作者: Ayush Kaushal, Tejas Vaidhya, Arnab Kumar Mondal, Tejas Pandey, Aaryan Bhagat, Irina Rish
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2407.12327v3

摘要

GPU 算力的快速发展已经超过了内存容量和带宽的增长速度,这在大型语言模型 (LLM) 推理中造成了瓶颈。训练后量化是解决 LLM 推理中内存相关瓶颈的主要方法,但它在低于 4 位精度时会遭受显著的性能下降。本文通过研究低位宽模型(特别是三元语言模型 (TriLMs))的预训练来解决这些挑战,作为传统浮点模型 (FloatLMs) 及其训练后量化版本 (QuantLMs) 的替代方案。我们提出了 Spectra LLM 套件,这是第一个涵盖多个位宽的开放式 LLM 套件,包括 FloatLMs、QuantLMs 和 TriLMs,参数范围从 99M 到 3.9B,在 300B 个标记上进行训练。我们全面的评估表明,TriLMs 在模型大小(以位计)方面表现出优越的扩展行为。令人惊讶的是,在超过十亿个参数的规模上,TriLMs 在各种基准测试中始终优于给定位大小的 QuantLM 和 FloatLM。值得注意的是,3.9B 参数的 TriLM 在所有基准测试中都匹配了 FloatLM 3.9B 的性能,尽管其位数少于 FloatLM 830M。总的来说,这项研究为低位宽语言模型的可行性和可扩展性提供了宝贵的见解,为开发更高效的 LLM 铺平了道路。 为了更好地理解低位宽模型,我们在 \href{https://github.com/NolanoOrg/SpectraSuite}{https://github.com/NolanoOrg/SpectraSuite} 发布了 Spectra 套件的 500 多个中间检查点。