LLM2D

摘要

arXiv:2502.12225v1 宣布类型: cross 摘要：许多现有的从带标签数据中学习的方法假设存在黄金标准标签。根据这些方法，注释者之间的分歧被视为需要去除的噪音，无论是通过改进注释指南、裁定标签，还是过滤标签。然而，在如情感分析或仇恨言论检测等更具主观性的任务中，分歧是自然存在的，很难完全消除。因此，一种新的从带标签数据中学习的方法，称为数据透视主义，寻求利用注释者之间的分歧来学习模型，这些模型忠于任务的固有不确定性，将注释视为注释者的观点，而不是黄金标准事实。尽管这种概念基础是存在的，但现有的数据透视主义方法仅将分歧作为注释不确定性来源的唯一途径。为了扩展数据透视主义的可能性，我们引入了主观逻辑编码（SLEs），这是一种灵活的框架，用于构建显式表示注释为注释者观点的分类目标。基于主观逻辑理论，SLEs将标签编码为狄利克雷分布，并提供了将注释者的信心、可靠性和分歧等各种类型的注释不确定性有原则地编码和聚合到目标中的方法。我们展示了SLEs是其他类型标签编码的推广，以及如何使用分布匹配目标估计预测SLEs的模型。