摘要
arXiv:2502.12965v1 交叉宣布类型
摘要:机器学习(ML)模型的基本假设是训练数据和测试数据来自相同的分布。然而,在实际应用中,这个假设往往被打破,即测试数据的分布随时间变化,这阻碍了传统ML模型的应用。一个自然发生分布转移的领域是文本分类,因为人们总是在讨论新的话题。为此,我们综述了研究开放式文本分类及相关任务的文章。我们根据定义分布转移种类及其对应的求解方案的方法,将这些领域的方法分为使用Universum学习、零样本学习和开放式学习几类。接下来,我们讨论了每个问题设置下的主要缓解方法。最后,我们确定了几项未来工作的方向,旨在超越目前的水平。有趣的是,我们发现连续学习可以解决许多由类别分布转移引起的问题。我们维护了一个相关论文列表:https://github.com/Eduard6421/Open-Set-Survey。