摘要
arXiv:2502.20727v2 宣告类型: replace-cross
摘要:随着大规模语言模型(LLMs)规模的迅速扩大,跨多个计算单元实现高效的分布式推理变得越来越关键。然而,流行的分布式推理技术如张量并行主义带来的通信开销严重阻碍了可扩展性和低延迟的实现。因此,我们提出了一种新的优化技术——同步点丢弃(Sync-Point Drop,SPD),通过有选择地在注意输出上丢弃同步来减少张量并行主义中的通信开销。具体来说,我们首先提出了一种模块化设计,允许通过SPD在无需通信的情况下继续执行。其次,我们根据模型精度对注意力模块采用不同的SPD策略。所提出的方法在降低LLM推理的总体推理延迟的同时,最大限度地减少了精度下降,为各种分布式环境提供了可扩展的解决方案:在8块GPU上进行LLaMA2-70B推理时,SPD提供了大约20%的整体推理延迟减少,同时精度退化不到1%。