LLM2D

摘要

从正样本和未标记样本（PUL）中学习二元分类器在许多现实世界应用中至关重要，尤其是在验证负样本很困难的情况下。尽管最近的 PUL 方法取得了令人印象深刻的经验性能，但由于缺乏负标签，累积误差和估计偏差增加等挑战依然存在。在本文中，我们揭示了 PUL 中一个有趣且长期被忽视的观察结果：\textit{在每次训练迭代中对正样本进行重采样以确保正样本和未标记样本之间的平衡分布会导致早期阶段的强劲性能。此外，正类和负类的预测趋势表现出明显不同的模式。}具体而言，未标记负样本的分数（输出概率）始终下降，而未标记正样本的分数则表现出很大程度的混乱趋势。我们并没有专注于单个时间框架内的分类，而是创新性地采用了一种整体方法，将每个样本的分数解释为一个时间点过程（TPP）。这将 PUL 的核心问题重新定义为识别这些分数中的趋势。然后，我们提出了一种新颖的受 TPP 启发的趋势检测度量，并证明了其在预测变化方面的渐近无偏性。值得注意的是，我们的方法在无需额外参数调整或先验假设的情况下实现了 PUL，为解决此问题提供了一种替代视角。大量实验验证了我们方法的优越性，尤其是在高度不平衡的现实世界环境中，该方法在关键指标上实现了高达 $11.3\%$ 的改进。代码可在 \href{https://github.com/wxr99/HolisticPU}{https://github.com/wxr99/HolisticPU} 处获取。