摘要
arXiv:2505.09598v1 交叉类型:cross
摘要:随着大型语言模型(LLMs)在各行各业中的普及,理解其推理层面的环境足迹不再是一种选择;它变得至关重要。然而,大多数现有研究排除了专有模型,忽视了基础设施的差异性和额外开销,或者仅专注于训练,即使推理越来越成为人工智能环境影响的主要因素。为了弥合这一差距,本文介绍了一种新的基于基础设施的基准测试框架,用于量化30个商用数据中心部署状态下最先进的LLM推理的环境足迹。我们的框架结合了公开API性能数据、地区特定的环境乘数以及硬件配置的统计推断。此外,我们还利用跨效率数据包络分析(DEA)对模型的性能相对于环境成本进行排名。我们的结果显示,o3和DeepSeek-R1成为最耗能的模型,每条长提示消耗超过33 Wh,是GPT-4.1 nano消耗量的70多倍。而Claude-3.7 Sonnet在环保效率方面排名第一。一个短的GPT-4o查询仅消耗0.43 Wh,但如果将其扩展到每天7亿次查询,将产生显著的年度环境影响,包括与35,000个美国家庭的用电量相当、与120万人的年度饮用水需求相当的淡水蒸发量,以及需要一片相当于芝加哥大小的森林来抵消的碳排放量。这些发现展示了一个日益增长的悖论:虽然单个查询是高效的,但其全球规模导致了不成比例的资源消耗。本研究提供了一种标准化的、基于经验的方法来基准测试LLM部署的可持续性,为未来人工智能发展中的环境问责制和可持续性标准奠定了基础。