LLM2D

摘要

arXiv:2502.12965v1 交叉宣布类型摘要：机器学习（ML）模型的基本假设是训练数据和测试数据来自相同的分布。然而，在实际应用中，这个假设往往被打破，即测试数据的分布随时间变化，这阻碍了传统ML模型的应用。一个自然发生分布转移的领域是文本分类，因为人们总是在讨论新的话题。为此，我们综述了研究开放式文本分类及相关任务的文章。我们根据定义分布转移种类及其对应的求解方案的方法，将这些领域的方法分为使用Universum学习、零样本学习和开放式学习几类。接下来，我们讨论了每个问题设置下的主要缓解方法。最后，我们确定了几项未来工作的方向，旨在超越目前的水平。有趣的是，我们发现连续学习可以解决许多由类别分布转移引起的问题。我们维护了一个相关论文列表：https://github.com/Eduard6421/Open-Set-Survey。