LLM2D

摘要

arXiv:2502.04095v1 宣布类型: cross 摘要：本文提出了一种针对可持续性报告领域的特定领域知识助手的定制方法，该方法基于国际财务报告准则（IFRS）。在这一领域，没有公开可用的问题-答案数据集，这阻碍了高质量聊天机器人的开发，以支持使用IFRS进行报告的公司。因此，该项目的两个主要贡献是： (1) 基于IFRS可持续性标准的高质量合成问题-答案（QA）数据集，使用一种新颖的生成和评估流水线，利用大型语言模型（LLMs）创建。该数据集包括1,063个多样化的QA对，涵盖了可持续性报告中潜在用户查询的广泛范围。使用各种基于LLM的技术创建数据集，包括链式推理和少样本提示。开发了一个自定义评估框架，从多个维度评估问题和答案的质量，包括忠实度、相关性和领域特异性。该数据集在这些指标上的平均得分为8.16分（满分为10分）。 (2) 两个可持续性报告领域的问答架构——一个RAG流水线和一个完全基于LLM的流水线。这些架构通过在QA数据集上进行实验、微调和训练而开发。最终流水线包含一个基于领域特定数据微调的LLM和一个行业分类组件，以改善复杂查询的处理。RAG架构在单行业单项选择问题上的准确率为85.32%，在跨行业多项选择问题上的准确率为72.15%，分别比基线方法高出4.67个和19.21个百分点。基于LLM的流水线在单行业多项选择问题上的准确率为93.45%，在跨行业多项选择问题上的准确率为80.30%，分别比基线高出12.80个和27.36个百分点。