摘要
arXiv:2502.06207v2 宣布类型: replace-cross
摘要:大型语言模型(LLMs)已成为检测冒犯性语言的重要工具,但它们处理注解分歧的能力尚未得到充分探索。由于主观解释导致的分歧样本具有模棱两可的性质,这给处理带来了独特的挑战。理解LLMs如何处理这些情况,特别是它们的信心水平,可以为我们提供关于它们与人类注释者一致性的见解。本研究系统地评估了多种LLMs在不同注解一致水平下检测冒犯性语言的表现。我们分析了二元分类准确性,检查了模型信心与人类分歧之间的关系,并探讨了分歧样本如何影响模型在少样本学习和指令微调过程中的决策。我们的研究结果表明,LLMs在低一致性的样本上面临挑战,往往在这些模棱两可的案例中表现出过度自信。然而,利用分歧样本进行训练可以提高检测准确性和模型与人类判断的一致性。这些见解为增强基于LLM的冒犯性语言检测在实际监管任务中的表现奠定了基础。