摘要
arXiv:2502.06874v1 宣告类型:交叉
摘要:准确的温室气体(GHG)排放报告对于政府、企业和投资者至关重要。然而,由于实施成本高、排放因子数据库碎片化以及缺少稳健的行业分类方法,这种做法在小企业和中型企业中的采用仍然有限。为了解决这些挑战,我们介绍了Group Reasoning Emission Estimation Networks(GREEN),这是一个由AI驱动的碳核算框架,它标准化了企业级排放估算,构建了一个大型基准数据集,并利用了一种新的基于大规模语言模型(LLMs)的推理方法。具体而言,我们为20,850家经过验证的北美人名行业分类系统(NAICS)标签的公司编制了文本描述,并将其与碳强度因素的经济模型对齐。通过将行业分类重新定义为信息检索任务,我们使用对比学习损失对Sentence-BERT模型进行了微调。为了解决单阶段模型在处理成千上万个分层类别时的局限性,我们提出了一个Group Reasoning方法,该方法基于自然的NAICS本体论并列出了LLM分类器,将任务分解为多个子分类步骤。我们理论上证明,这种方法降低了分类不确定性和计算复杂性。在1,114个NAICS类别上的实验取得了最先进的性能(Top-1准确率83.68%,Top-10准确率91.47%),并在20家公司的案例研究中报告了平均绝对百分比误差(MAPE)为45.88%。该项目可在以下网址获取:https://huggingface.co/datasets/Yvnminc/ExioNAICS。