LLM2D
揭露大型语言模型检测 offensive 语言的能力,特别是在注解不一致情况下的表现
Unveiling the Capabilities of Large Language Models in Detecting Offensive Language with Annotation Disagreement
作者: Junyu Lu, Kai Ma, Kaichun Wang, Kelaiti Xiao, Roy Ka-Wei Lee, Bo Xu, Liang Yang, Hongfei Lin
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.06207v1

摘要

arXiv:2502.06207v1 检测类型: 横跨 摘要: 大规模语言模型(LLMs)因其先进的能力被广泛用于检测网络攻击性语言。然而,现实世界数据集中人类注释分歧带来的挑战仍被严重忽视。这些分歧样本由于其模糊性而难以检测。此外,LLM 在处理分歧样本时的置信度可以提供其与人类注释者一致性的宝贵见解。为了弥补这一缺口,我们系统地评估了LLMs检测网络攻击性语言的能力,特别是在存在注释分歧的情况下。我们比较了多个LLM在不同注释一致水平下的二分类准确性,并分析了LLM置信度与注释一致性的关系。此外,我们研究了分歧样本对LLM在少样本学习和指令微调过程中决策的影响。我们的发现突显了分歧样本带来的挑战,并为改进基于LLM的网络攻击性语言检测提供了指导。