LLM2D

摘要

arXiv:2504.13068v1 宣告类型: cross 摘要: 本研究探讨了深度学习（DL）模型在事故叙述分类中的准确性和专家一致性的关系。我们评估了五种DL模型——包括BERT变体、通用句子编码器（USE）和零样本分类器——与专家标注数据以及叙述文本的对比结果。进一步地，将分析扩展到了四个人工智能语言模型（LLMs）：GPT-4、LLaMA 3、Qwen和Claude。我们的结果显示一种反直觉的趋势：准确性较高的模型往往与领域专家的意见一致性较低，而人工智能语言模型尽管准确率相对较低，却表现出更接近专家的一致性。为了量化和解释模型与专家的一致性，我们运用了Cohen's Kappa、主成分分析（PCA）以及基于SHAP的可解释性技术。结果表明，与专家一致的模型更倾向于依赖上下文和时间语言线索，而不是具体位置的关键词。这些结果强调，仅凭准确率对于评估安全关键的自然语言处理（NLP）应用中的模型是不够的。我们提倡在模型评估框架中引入专家一致性作为补充指标，并指出了LLMs作为可解释且可扩展的工具用于事故分析流程的前景。