LLM2D

摘要

arXiv:2504.03755v1 Announce Type: 剪裁摘要：通用类别发现（GCD）是一个实用但尚未充分探索的问题，要求模型通过利用旧类别标记样本来自动聚类和发现新的类别。面临的挑战是未标记数据中包含旧类和新类。早期利用伪标签结合参数分类器的工作分别处理旧类和新类，这导致二者之间不平衡的准确率。最近采用对比学习的方法忽略了潜在的正样本，并且与聚类目标脱钩，导致偏向的表示和次优的结果。为了解决这些问题，我们引入了一个统一且无偏的原型学习框架，即ProtoGCD，在该框架中，旧类和新类通过联合原型和统一的学习目标进行建模，从而在旧类和新类之间实现统一建模。具体而言，我们提出了一种双重适应性伪标签机制以缓解确认偏差，并结合两种正则化项共同帮助学习更适合的表示以用于GCD。此外，为了实际考虑，我们设计了一个准则来估算新类的数量。同时，我们将ProtoGCD扩展以检测未见过的异常值，实现了任务级别的统一。全面的实验表明，ProtoGCD在通用和细粒度数据集上均实现了最先进的性能。代码可在https://github.com/mashijie1028/ProtoGCD获取。