LLM2D

摘要

arXiv:2502.06874v2 宣告类型: 替换交叉摘要：准确的温室气体（GHG）排放报告对于政府、企业和投资者至关重要。然而，由于实施成本高、排放因子数据库分散以及缺乏 robust 的行业分类方法，其应用仍然有限，特别是在小型和中型企业中的应用。为了应对这些挑战，我们介绍了 Group Reasoning Emission Estimation Networks (GREEN)，这是一个基于 AI 的碳核算框架，标准化企业级排放估算，构建大规模基准数据集，并利用大型语言模型（LLMs）的新型推理方法。具体而言，我们为 20,850 家公司编译了经过验证的北美行业分类系统（NAICS）标签的文本描述，并将其与碳强度因子的经济模型对齐。通过将行业分类重新塑造成信息检索任务，我们使用对比学习损失微调 Sentence-BERT 模型。为了解决单一阶段模型处理数千个层次分类类别时的局限性，我们提出了一种 Group Reasoning 方法，基于自然的 NAICS 本体论组合 LLM 分类器，将任务分解为多个子分类步骤。我们理论上证明了这种方法减少了分类不确定性并降低了计算复杂性。在 1,114 个 NAICS 类别上的实验取得了最先进的性能（顶级类别准确率为 83.68%，前十个类别准确率为 91.47%），并对 20 家公司的案例研究报告了平均绝对百分比误差（MAPE）为 45.88%。该项目可在以下链接获取：https://huggingface.co/datasets/Yvnminc/ExioNAICS。