摘要
arXiv:2505.03811v1 类别: cross
摘要: 本文介绍了ScarceGAN,它专注于从具有少量和弱标记先验的多维纵向遥测数据中识别极其稀有或稀缺的样本。我们特别解决了以下问题:(i) 正类的严重稀缺性,源自数据本身的有机偏斜以及极其有限的标签;(ii) 负样本的多类别性质,特征分布不均匀且部分重叠;以及 (iii) 大量未标记的数据导致正类和负类的先验微小且薄弱,未标记数据集中可能存在未见过或未知的行为,尤其是在负类中。虽然与PU学习问题有关,但我们认为对负类的知识(或缺乏知识)可以在半监督方式下更好地利用,以学习其互补类(即正类)。为此,ScarceGAN 重新定义了半监督GAN,以容纳多类别弱标记的负样本和可用的正样本。通过引入一个“容错”项来放松监督判别器对负样本之间精确区分的约束。我们还对判别器和生成器的监督和无监督路径的成本目标进行了修改。对于识别技能游戏中风险玩家,此方法在整个过程中使我们的稀缺类召回率超过85%(相较于普通的半监督GAN提升了约60%),并且在未知空间中几乎没有冗余。此外,ScarceGAN 在识别KDDCUP99挑战赛入侵数据集中一种极为罕见攻击类(0.09%)方面优于最近的基于GAN的专业化模型,并建立了新的基准。