LLM2D
准确率并非共识:基于专家对齐的碰撞叙述分类模型评估
Accuracy is Not Agreement: Expert-Aligned Evaluation of Crash Narrative Classification Models
作者: Sudesh Ramesh Bhagat, Ibne Farabi Shihab, Anuj Sharma
发布日期: 5/5/2025
arXiv ID: oai:arXiv.org:2504.13068v2

摘要

arXiv:2504.13068v2 提交类型: replace-cross 摘要:本研究探讨了深度学习(DL)模型准确性和专家在分类事故叙述时的一致性之间的关系。我们评估了五种DL模型——包括BERT变体、USE和零样本分类器——与专家标签和叙述的对比情况,并将分析扩展到四种大型语言模型(LLMs):GPT-4、LLaMA 3、Qwen和Claude。研究发现表明一种逆向关系:技术准确性较高的模型通常与人类专家的一致性较低,而大型语言模型则表现出更强的专家一致性,尽管其准确率较低。我们使用Cohen’s Kappa和主成分分析(PCA)来量化和可视化模型与专家的一致性,并使用SHAP分析来解释错误分类。结果表明,与专家一致的模型更多依赖于上下文和时间的线索,而不是位置特定的关键词。这些发现表明,对于涉及安全的关键自然语言处理任务而言,仅靠准确率是不够的。我们建议将专家一致性纳入模型评估框架,并强调大型语言模型在事故分析流水线中作为可解释工具的潜力。