LLM2D

摘要

arXiv:2503.23243v1 标签类型: 交叉学科摘要：研究人员提出了使用生成型大语言模型（LLMs）来标记数据，适用于研究和实际应用两种场合。这些文献强调了LLMs相对于其他自然语言模型的优越性能，指出LLMs通常在标准指标（如准确率、精确率、召回率和F1分数）上表现更好。然而，先前的研究也指出了语言模型中存在的偏见，特别是在潜在有毒内容等领域存在争议的议题上。这种偏见可能导致LLMs应用的标签过度偏向于主流群体，而与更广泛的观点集不一致。在本文中，我们评估了LLMs在这些争议任务上如何表示多元观点。在四个数据集上的四个标注任务中，我们展示了LLMs在基于人口统计学的分歧上并未表现出显著的分歧。相反，模型、提示以及人类标注者在标注任务上的分歧，对LLMs的一致性预测更为重要。我们的研究结果表明，在使用LLMs注释数据时，对某些群体观点的代表性不足并不是一个重大问题。我们最后讨论了这些研究结果对未来研究人员和实践者的意义。