LLM2D

摘要

GPU计算能力的快速发展超过了内存容量和带宽的增长，从而在大型语言模型（LLM）推理中造成了瓶颈。训练后量化是解决LLM推理中内存相关瓶颈的主要方法，但它在低于4位精度时会造成严重的性能下降。本文通过研究低位宽模型（特别是三元语言模型，TriLMs）的预训练来解决这些挑战，将其作为传统浮点模型（FloatLMs）及其训练后量化版本（QuantLMs）的替代方案。我们提出了Spectra LLM套件，这是第一个涵盖多种位宽的开放式LLM套件，包括FloatLMs、QuantLMs和TriLMs，参数范围从9900万到39亿，训练数据为3000亿个token。我们的综合评估表明，TriLMs在模型大小（以位计）方面具有优越的扩展性。令人惊讶的是，在参数规模超过10亿的情况下，在各种基准测试中，TriLMs在给定位数下始终优于其QuantLM和FloatLM对应模型。值得注意的是，39亿参数的TriLM在所有基准测试中都匹配了39亿参数的FloatLM的性能，尽管其位数少于8.3亿参数的FloatLM。总的来说，这项研究为低位宽语言模型的可行性和可扩展性提供了宝贵的见解，为开发更高效的LLM铺平了道路。为了增强对低位宽模型的理解，我们正在发布Spectra套件的500多个中间检查点，地址为\href{https://github.com/NolanoOrg/SpectraSuite}{https://github.com/NolanoOrg/SpectraSuite}。