摘要
arXiv:2408.16978v2 宣传类型: 替换-跨境
摘要:具有长上下文能力的大语言模型(LLMs)在自然语言处理和计算生物学中的复杂任务中至关重要,如文本生成和蛋白质序列分析。但是,直接在极为长的上下文上训练LLMs需要大量GPU资源和增加内存,导致成本高昂和复杂度增加。通过下游微调或适应引入长上下文能力的方法对设计提出了重大限制。本文中,我们提出了全流水分布式变压器(FPDT),以高效地训练具有极端硬件效率的长上下文LLMs。对于GPT和Llama模型,我们实现了与当前最先进的解决方案相比,在相同硬件上训练的序列长度提高了16倍。借助我们专门设计的序列片段流水线,我们现在可以在仅使用4块GPU的情况下训练具有200万序列长度的8B LLM,并且保持MFU超过55%。我们提出的FPDT对现有的训练技术是通用的,并且已被证明可以在不同的LLM模型中高效工作。