摘要
arXiv:2503.23243v1 标签类型: 交叉学科
摘要:研究人员提出了使用生成型大语言模型(LLMs)来标记数据,适用于研究和实际应用两种场合。这些文献强调了LLMs相对于其他自然语言模型的优越性能,指出LLMs通常在标准指标(如准确率、精确率、召回率和F1分数)上表现更好。然而,先前的研究也指出了语言模型中存在的偏见,特别是在潜在有毒内容等领域存在争议的议题上。这种偏见可能导致LLMs应用的标签过度偏向于主流群体,而与更广泛的观点集不一致。在本文中,我们评估了LLMs在这些争议任务上如何表示多元观点。在四个数据集上的四个标注任务中,我们展示了LLMs在基于人口统计学的分歧上并未表现出显著的分歧。相反,模型、提示以及人类标注者在标注任务上的分歧,对LLMs的一致性预测更为重要。我们的研究结果表明,在使用LLMs注释数据时,对某些群体观点的代表性不足并不是一个重大问题。我们最后讨论了这些研究结果对未来研究人员和实践者的意义。