LLM2D
谱:对三元、量化和FP16语言模型的综合研究
Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models
作者: Ayush Kaushal, Tejas Vaidhya, Arnab Kumar Mondal, Tejas Pandey, Aaryan Bhagat, Irina Rish
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2407.12327v4

摘要

GPU计算能力的快速发展超过了内存容量和带宽的增长,从而在大型语言模型(LLM)推理中造成了瓶颈。训练后量化是解决LLM推理中内存相关瓶颈的主要方法,但它在低于4位精度时会造成严重的性能下降。本文通过研究低位宽模型(特别是三元语言模型,TriLMs)的预训练来解决这些挑战,将其作为传统浮点模型(FloatLMs)及其训练后量化版本(QuantLMs)的替代方案。我们提出了Spectra LLM套件,这是第一个涵盖多种位宽的开放式LLM套件,包括FloatLMs、QuantLMs和TriLMs,参数范围从9900万到39亿,训练数据为3000亿个token。我们的综合评估表明,TriLMs在模型大小(以位计)方面具有优越的扩展性。令人惊讶的是,在参数规模超过10亿的情况下,在各种基准测试中,TriLMs在给定位数下始终优于其QuantLM和FloatLM对应模型。值得注意的是,39亿参数的TriLM在所有基准测试中都匹配了39亿参数的FloatLM的性能,尽管其位数少于8.3亿参数的FloatLM。总的来说,这项研究为低位宽语言模型的可行性和可扩展性提供了宝贵的见解,为开发更高效的LLM铺平了道路。为了增强对低位宽模型的理解,我们正在发布Spectra套件的500多个中间检查点,地址为\href{https://github.com/NolanoOrg/SpectraSuite}{https://github.com/NolanoOrg/SpectraSuite}。