LLM2D
基于LLM的自动化资产级数据库创建管道以评估森林砍伐影响
An Automated LLM-based Pipeline for Asset-Level Database Creation to Assess Deforestation Impact
作者: Avanija Menon, Ovidiu Serban
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2505.05494v1

摘要

arXiv:2505.05494v1 类型: cross 摘要:欧洲联盟毁林法规(EUDR)要求公司证明其产品不会导致毁林,从而产生了对精确的、资产级的环境影响数据的迫切需求。现有数据库缺乏必要的细节,依赖于广泛的财务指标和手动数据收集,这限制了监管合规性和准确的环境建模。本研究提出了一种自动化、端到端的数据提取管道,利用大规模语言模型(LLMs)创建、清洗和验证结构化的数据库,特别针对那些毁林风险较高的行业。该管道引入了基于指令、基于角色、零样本链式思考(IRZ-CoT)的提示,以提高数据提取准确性,并引入了检索增强验证(RAV)过程,该过程结合了实时网络搜索以提高数据可靠性。该管道应用于矿业、石油和天然气以及公用事业领域的SEC EDGAR申报文件时,与传统的零样本提示方法相比,特别是在提取准确性和验证覆盖率方面,显示出了显著的改进。本研究推进了自然语言处理驱动的自动化在监管合规、企业社会责任(CSR)和ESG方面的应用,具有广泛的行业适用性。