LLM2D

摘要

arXiv:2503.13915v2 宣告类型: 替换-交叉摘要: 我们解决了一个半监督领域泛化（SSDG）问题，在该问题中训练数据和测试数据的分布不同，并且在训练过程中仅可用少量标注数据和大量未标注数据。现有的SSDG方法只利用了那些模型预测非常自信的未标注样本（自信的未标注样本），从而限制了可用未标注数据的充分利用。据我们所知，我们是首先探索将之前在SSDG设置中被忽视的不自信的未标注样本纳入方法的。为此，我们提出UPCSC以利用这些不自信的未标注样本在SSDG中，该方法由两个模块组成：1）基于未标注代理的对比学习（UPC）模块，将不自信的未标注样本视为额外的负样本对；2）替代类学习（SC）模块，通过其混淆类集为不自信的未标注样本生成正样本对。这两个模块是插即用的，并不要求任何领域标签，可以很容易地集成到现有方法中。在四个广泛使用的SSDG基准数据集上的实验表明，当附加到基线方法时，我们的方法能够一致地提高性能，并且优于其他插即用方法。我们还分析了我们方法在SSDG中的作用，表明它增强了类别级的可区辨性和减轻了领域差距。代码可在 https://github.com/dongkwani/UPCSC 获取。