摘要
arXiv:2411.01783v3 宣告类型: replace-cross
摘要: 我们提出了长上下文大语言模型推理中的上下文并行性,该方法在使用至多16节点上的128个H100 GPU时,实现了长上下文预填充延迟的接近线性扩展。具体而言,我们的方法在Llama3 405B模型上实现1M上下文预填充耗时77秒(并行化效率93%,FLOPS利用率63%),并在3.8秒内实现128K上下文预填充。我们开发了两种无损准确环注意力变体:pass-KV和pass-Q,以覆盖广泛的使用场景,并保持最先进的性能:完整预填充、持久KV预填充和解码。使用RDMA和TCP连接的H100 GPU主机的基准测试均显示长上下文预填充的相似可扩展性,证明我们的方法能够较好地利用具有中等到低主机间带宽的常规商用数据中心的资源。