摘要
“金标准”和“真实值”人工标注存在误差。这种误差的影响可能会逃过常用的标签质量指标的检测,或者在模型评估期间掩盖准确性、偏差、公平性和实用性等问题。本研究展示了即使在专家人工可靠性极低的情况下,也能回答此类问题的方法。我们分析了人工标签、GPT模型评分和描述课堂教学质量的Transformer编码器模型标注,这是一个重要、昂贵且目前只有人工才能完成的任务。我们利用两种大型语言模型(LLM)架构系列——编码器和GPT解码器,并使用新颖的方法来评估六个维度的标签质量:一致性、置信度、有效性、偏差、公平性和帮助性,从而回答了这项任务是否可以自动化的的问题。首先,我们证明了在存在不良标签的情况下使用标准指标可能会掩盖标签和模型质量:编码器系列模型在所有课堂标注任务中都取得了最先进的,甚至“超人类”的结果。但并非所有这些积极的结果在使用更严格的评估措施后仍然存在,这些措施揭示了模型和人类之间虚假的相关性和非随机种族偏差。然后,本研究扩展了这些方法,以估计如果在人机交互的背景下使用模型,模型的使用如何改变人工标签质量,发现GPT模型标签中捕获的方差会加剧受这些模型影响的人工可靠性。我们确定了一些LLM在当前数据的泛化能力范围内可以提高昂贵的人工课堂教学评分质量的领域。