LLM2D

摘要

识别和分类引发停堆事件 (SDIE) 对于开发核电站的低功率停堆概率风险评估至关重要。现有的计算方法由于缺乏大型标记数据集、事件类型不平衡以及标签噪声等挑战，无法实现令人满意的性能。为了解决这些挑战，我们提出了一种混合管道，将知识驱动的机器学习模式整合到预筛选非 SDIE 中，并使用大型语言模型 (LLM) 将 SDIE 分为四种类型。在预筛选阶段，我们提出了 44 个 SDIE 文本模式，这些模式包含来自六种 SDIE 类型的最显著关键字和短语。基于 SDIE 模式进行文本向量化生成特征向量，这些特征向量可以使用简单的二元分类器进行高度分离。第二阶段构建基于双向编码器表示来自 Transformer (BERT) 的 LLM，它从大型数据集上的自监督预训练中学习通用英语语言表示，并通过在 SDIE 数据集上微调来适应 SDIE 分类。所提出的方法在包含 10,928 个事件的数据集上进行了评估，使用精度、召回率、F1 分数和平均准确率进行评估。结果表明，预筛选阶段可以排除超过 97% 的非 SDIE，LLM 在 SDIE 分类中的平均准确率达到 93.4%。