LLM2D

摘要

arXiv:2505.09598v1 交叉类型：cross 摘要：随着大型语言模型（LLMs）在各行各业中的普及，理解其推理层面的环境足迹不再是一种选择；它变得至关重要。然而，大多数现有研究排除了专有模型，忽视了基础设施的差异性和额外开销，或者仅专注于训练，即使推理越来越成为人工智能环境影响的主要因素。为了弥合这一差距，本文介绍了一种新的基于基础设施的基准测试框架，用于量化30个商用数据中心部署状态下最先进的LLM推理的环境足迹。我们的框架结合了公开API性能数据、地区特定的环境乘数以及硬件配置的统计推断。此外，我们还利用跨效率数据包络分析（DEA）对模型的性能相对于环境成本进行排名。我们的结果显示，o3和DeepSeek-R1成为最耗能的模型，每条长提示消耗超过33 Wh，是GPT-4.1 nano消耗量的70多倍。而Claude-3.7 Sonnet在环保效率方面排名第一。一个短的GPT-4o查询仅消耗0.43 Wh，但如果将其扩展到每天7亿次查询，将产生显著的年度环境影响，包括与35,000个美国家庭的用电量相当、与120万人的年度饮用水需求相当的淡水蒸发量，以及需要一片相当于芝加哥大小的森林来抵消的碳排放量。这些发现展示了一个日益增长的悖论：虽然单个查询是高效的，但其全球规模导致了不成比例的资源消耗。本研究提供了一种标准化的、基于经验的方法来基准测试LLM部署的可持续性，为未来人工智能发展中的环境问责制和可持续性标准奠定了基础。