LLM2D

摘要

arXiv:2504.11284v1 类型: cross 摘要：二部排名是一个基本的监督学习问题，其目标是学习一个排名，以在与单一二元目标标签的最大受控接收者操作特征曲线面积（AUC）下进行排名。然而，人们经常观察到多个二元目标标签，例如来自不同的人类标注者。如何将这些标签综合成一个一致的排名？在本文中，我们通过分析这两种方法的贝叶斯最优解来正式分析这个问题——损失聚合和标签聚合。基于此，我们展示了虽然这两种方法都可以产生帕累托最优解，但损失聚合可能会表现出标签独裁：可能会无意中（且不受欢迎地）偏好一个标签而忽视其他标签。这表明标签聚合可能优于损失聚合，我们在实验中证实了这一点。