摘要
arXiv:2504.13068v1 宣告类型: cross
摘要: 本研究探讨了深度学习(DL)模型在事故叙述分类中的准确性和专家一致性的关系。我们评估了五种DL模型——包括BERT变体、通用句子编码器(USE)和零样本分类器——与专家标注数据以及叙述文本的对比结果。进一步地,将分析扩展到了四个人工智能语言模型(LLMs):GPT-4、LLaMA 3、Qwen和Claude。我们的结果显示一种反直觉的趋势:准确性较高的模型往往与领域专家的意见一致性较低,而人工智能语言模型尽管准确率相对较低,却表现出更接近专家的一致性。为了量化和解释模型与专家的一致性,我们运用了Cohen's Kappa、主成分分析(PCA)以及基于SHAP的可解释性技术。结果表明,与专家一致的模型更倾向于依赖上下文和时间语言线索,而不是具体位置的关键词。这些结果强调,仅凭准确率对于评估安全关键的自然语言处理(NLP)应用中的模型是不够的。我们提倡在模型评估框架中引入专家一致性作为补充指标,并指出了LLMs作为可解释且可扩展的工具用于事故分析流程的前景。