LLM2D
从正无标(PU)数据理解对比表示学习
Understanding Contrastive Representation Learning from Positive Unlabeled (PU) Data
作者: Anish Acharya, Li Jing, Bhargav Bhushanam, Dhruv Choudhary, Michael Rabbat, Sujay Sanghavi, Inderjit S Dhillon
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2402.06038v2

摘要

arXiv:2402.06038v2 Announce Type: replace-cross 摘要:先验不变表示学习(PIRL)随后进行监督微调(SFT)已成为在有限标签情况下学习的标准范式。我们将其扩展到正未标记(PU)设置中,在这种设置中,只有少量标记的正样本和一个未标记的大池——该池包含正样本和负样本。我们研究了该问题的两种情况:(i)不访问类先验;以及(ii)知道或可以通过估计类先验的情况。我们引入了正未标记对比学习(puCL),这是一种无偏且方差减少的对比目标,它巧妙地将标记的正样本的弱监督集成到对比损失中。当知道类先验时,我们提出了一种先验感知的正未标记InfoNCE(puNCE),这是一种重新加权未标记样本为软正负混合物的扩展。对于下游分类,我们开发了一种伪标签算法,该算法通过PU感知聚类利用学习到的嵌入空间的结构。我们的框架得到了理论的支持;它提供了偏差方差分析、收敛洞察和通过增强集中提供的泛化保证;并通过标准PU基准测试得到了实验证明,在低监督情况下它始终优于现有方法。