LLM2D

摘要

arXiv:2501.18452v2 通告类型: replace-cross 摘要: 通过联合嵌入架构实现的自我监督学习(SSL)方法已被证明在捕捉丰富语义表示和强聚类特性方面非常有效，即使在没有标签监督的情况下也是如此。尽管如此，其中很少有方法探索利用这些未充分利用的特性来改进自己。在本文中，我们通过多种指标提供了证据，证明编码器的输出 $encoding$ 比其他组件具有更优秀和更稳定的聚类特性。基于这一见解，我们提出了一种新颖的正反馈 SSL 方法，称为表示自我分配 (ReSA)，该方法利用模型的聚类特性以自我引导的方式促进学习。在标准 SSL 基准上的广泛实验表明，使用 ReSA 预训练的模型在其他最先进的 SSL 方法上具有显著的领先优势。最后，我们分析了 ReSA 如何促进更好的聚类特性，证明它有效地在细粒度和粗粒度层面上提升了聚类性能，从而形成更具结构和语义意义的表示。