LLM2D

摘要

arXiv:2502.12581v1 类别：交叉领域摘要：可靠地标注数据通常需要多个人类工人的注释。然而，人类远远不是完美的。因此，将多个注释者收集的标签汇总起来以更自信地估计真实标签是一个常见的做法。在众多的汇总方法中，简单且广为人知的多数投票（MV）方法是选择获得最多投票的类别标签。尽管其重要性不容忽视，但MV标签汇总的最优性尚未得到广泛的探讨。我们通过分析MV在何种条件下能够达到标签估计误差的理论最优下界来填补这一空白。我们的结果捕捉到了MV在给定类别分布的情况下，可以最优地恢复标签的容忍注释噪声的上限。这种最优性证明为标签聚合的模型选择提供了一种更为原则的做法，作为一种替代效率低下的实践，例如有时包括更高水平的专家、金标签等，尽管它们在时间和金钱成本高昂的情况下仍然面临着同样的人类不确定性。对合成数据和真实世界数据的实验验证了我们的理论发现。