LLM2D
解锁半监督领域泛化中未标注数据的潜力
Unlocking the Potential of Unlabeled Data in Semi-Supervised Domain Generalization
作者: Dongkwan Lee, Kyomin Hwang, Nojun Kwak
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2503.13915v2

摘要

arXiv:2503.13915v2 宣告类型: 替换-交叉 摘要: 我们解决了一个半监督领域泛化(SSDG)问题,在该问题中训练数据和测试数据的分布不同,并且在训练过程中仅可用少量标注数据和大量未标注数据。现有的SSDG方法只利用了那些模型预测非常自信的未标注样本(自信的未标注样本),从而限制了可用未标注数据的充分利用。据我们所知,我们是首先探索将之前在SSDG设置中被忽视的不自信的未标注样本纳入方法的。为此,我们提出UPCSC以利用这些不自信的未标注样本在SSDG中,该方法由两个模块组成:1)基于未标注代理的对比学习(UPC)模块,将不自信的未标注样本视为额外的负样本对;2)替代类学习(SC)模块,通过其混淆类集为不自信的未标注样本生成正样本对。这两个模块是插即用的,并不要求任何领域标签,可以很容易地集成到现有方法中。在四个广泛使用的SSDG基准数据集上的实验表明,当附加到基线方法时,我们的方法能够一致地提高性能,并且优于其他插即用方法。我们还分析了我们方法在SSDG中的作用,表明它增强了类别级的可区辨性和减轻了领域差距。代码可在 https://github.com/dongkwani/UPCSC 获取。