摘要
大型语言模型 (LLM) 在推理阶段产生的碳足迹远大于训练阶段,贯穿其整个生命周期。LLM 推理请求在批次大小、提示长度和令牌生成数量方面存在差异,而云提供商则采用不同类型的 GPU 和数量来满足准确性和延迟方面的各种服务级别目标。对于用户和云提供商来说,至关重要的一点是,在执行之前,需要一个工具能够快速准确地根据推理请求和硬件配置的组合估算 LLM 推理的碳影响。由于模型 FLOPS 利用率较低且变化很大,因此估算 LLM 推理的碳足迹比训练更复杂,这使得以往基于方程的模型变得不准确。此外,现有的机器学习 (ML) 预测方法要么缺乏准确性,要么需要大量的训练数据,因为它们没有充分处理预填充和解码阶段,忽略了硬件特定特征,并且对不常见的推理配置采样效率低下。我们引入了 \coo,这是一种基于图神经网络 (GNN) 的模型,与以往的方法相比,它极大地提高了 LLM 推理碳足迹预测的准确性。