LLM2D
自我监督学习的聚类特性
Clustering Properties of Self-Supervised Learning
作者: Xi Weng, Jianing An, Xudong Ma, Binhang Qi, Jie Luo, Xi Yang, Jin Song Dong, Lei Huang
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2501.18452v2

摘要

arXiv:2501.18452v2 通告类型: replace-cross 摘要: 通过联合嵌入架构实现的自我监督学习(SSL)方法已被证明在捕捉丰富语义表示和强聚类特性方面非常有效,即使在没有标签监督的情况下也是如此。尽管如此,其中很少有方法探索利用这些未充分利用的特性来改进自己。在本文中,我们通过多种指标提供了证据,证明编码器的输出 $encoding$ 比其他组件具有更优秀和更稳定的聚类特性。基于这一见解,我们提出了一种新颖的正反馈 SSL 方法,称为表示自我分配 (ReSA),该方法利用模型的聚类特性以自我引导的方式促进学习。在标准 SSL 基准上的广泛实验表明,使用 ReSA 预训练的模型在其他最先进的 SSL 方法上具有显著的领先优势。最后,我们分析了 ReSA 如何促进更好的聚类特性,证明它有效地在细粒度和粗粒度层面上提升了聚类性能,从而形成更具结构和语义意义的表示。