LLM2D

摘要

arXiv:2502.06874v1 宣告类型：交叉摘要：准确的温室气体（GHG）排放报告对于政府、企业和投资者至关重要。然而，由于实施成本高、排放因子数据库碎片化以及缺少稳健的行业分类方法，这种做法在小企业和中型企业中的采用仍然有限。为了解决这些挑战，我们介绍了Group Reasoning Emission Estimation Networks（GREEN），这是一个由AI驱动的碳核算框架，它标准化了企业级排放估算，构建了一个大型基准数据集，并利用了一种新的基于大规模语言模型（LLMs）的推理方法。具体而言，我们为20,850家经过验证的北美人名行业分类系统（NAICS）标签的公司编制了文本描述，并将其与碳强度因素的经济模型对齐。通过将行业分类重新定义为信息检索任务，我们使用对比学习损失对Sentence-BERT模型进行了微调。为了解决单阶段模型在处理成千上万个分层类别时的局限性，我们提出了一个Group Reasoning方法，该方法基于自然的NAICS本体论并列出了LLM分类器，将任务分解为多个子分类步骤。我们理论上证明，这种方法降低了分类不确定性和计算复杂性。在1,114个NAICS类别上的实验取得了最先进的性能（Top-1准确率83.68%，Top-10准确率91.47%），并在20家公司的案例研究中报告了平均绝对百分比误差（MAPE）为45.88%。该项目可在以下网址获取：https://huggingface.co/datasets/Yvnminc/ExioNAICS。