LLM2D

摘要

arXiv:2504.13068v2 提交类型: replace-cross 摘要：本研究探讨了深度学习（DL）模型准确性和专家在分类事故叙述时的一致性之间的关系。我们评估了五种DL模型——包括BERT变体、USE和零样本分类器——与专家标签和叙述的对比情况，并将分析扩展到四种大型语言模型（LLMs）：GPT-4、LLaMA 3、Qwen和Claude。研究发现表明一种逆向关系：技术准确性较高的模型通常与人类专家的一致性较低，而大型语言模型则表现出更强的专家一致性，尽管其准确率较低。我们使用Cohen’s Kappa和主成分分析（PCA）来量化和可视化模型与专家的一致性，并使用SHAP分析来解释错误分类。结果表明，与专家一致的模型更多依赖于上下文和时间的线索，而不是位置特定的关键词。这些发现表明，对于涉及安全的关键自然语言处理任务而言，仅靠准确率是不够的。我们建议将专家一致性纳入模型评估框架，并强调大型语言模型在事故分析流水线中作为可解释工具的潜力。