摘要
arXiv:2504.13068v2 提交类型: replace-cross
摘要:本研究探讨了深度学习(DL)模型准确性和专家在分类事故叙述时的一致性之间的关系。我们评估了五种DL模型——包括BERT变体、USE和零样本分类器——与专家标签和叙述的对比情况,并将分析扩展到四种大型语言模型(LLMs):GPT-4、LLaMA 3、Qwen和Claude。研究发现表明一种逆向关系:技术准确性较高的模型通常与人类专家的一致性较低,而大型语言模型则表现出更强的专家一致性,尽管其准确率较低。我们使用Cohen’s Kappa和主成分分析(PCA)来量化和可视化模型与专家的一致性,并使用SHAP分析来解释错误分类。结果表明,与专家一致的模型更多依赖于上下文和时间的线索,而不是位置特定的关键词。这些发现表明,对于涉及安全的关键自然语言处理任务而言,仅靠准确率是不够的。我们建议将专家一致性纳入模型评估框架,并强调大型语言模型在事故分析流水线中作为可解释工具的潜力。