LLM2D

摘要

部分标签学习 (PLL) 是一种典型的弱监督学习任务，假设每个训练实例都标注了一组包含真实标签的候选标签。最近的 PLL 方法采用基于识别的消歧来减轻误报标签的影响，并取得了可观的性能。然而，它们要求测试集中所有类别都出现在训练集中，忽略了现实应用中会不断出现新类别的事实。为了解决这个问题，本文重点研究了增强类别的部分标签学习 (PLLAC) 问题，其中一个或多个增强类别在训练阶段不可见，但在推断阶段出现。具体来说，我们提出了一种具有理论保证的 PLLAC 无偏风险估计器，该估计器通过区分已知类别的分布和未标记数据的分布来估计增强类别的分布，并且可以配备任意 PLL 损失函数。此外，我们对估计器的估计误差界限进行了理论分析，保证了经验风险最小化器在训练数据数量趋于无穷大时收敛到真实风险最小化器。此外，我们在优化目标中添加了一个风险惩罚正则化项，以减轻由负经验风险引起的过度拟合问题。在基准、UCI 和真实世界数据集上的大量实验表明了所提出方法的有效性。