LLM2D

摘要

大型语言模型 (LLM) 在推理阶段产生的碳足迹远大于训练阶段，贯穿其整个生命周期。LLM 推理请求在批次大小、提示长度和令牌生成数量方面存在差异，而云提供商则采用不同类型的 GPU 和数量来满足准确性和延迟方面的各种服务级别目标。对于用户和云提供商来说，至关重要的一点是，在执行之前，需要一个工具能够快速准确地根据推理请求和硬件配置的组合估算 LLM 推理的碳影响。由于模型 FLOPS 利用率较低且变化很大，因此估算 LLM 推理的碳足迹比训练更复杂，这使得以往基于方程的模型变得不准确。此外，现有的机器学习 (ML) 预测方法要么缺乏准确性，要么需要大量的训练数据，因为它们没有充分处理预填充和解码阶段，忽略了硬件特定特征，并且对不常见的推理配置采样效率低下。我们引入了 \coo，这是一种基于图神经网络 (GNN) 的模型，与以往的方法相比，它极大地提高了 LLM 推理碳足迹预测的准确性。