摘要
对比学习 (CL) 已成为一种强大的方法,用于使用无标签数据训练特征提取模型。最近的研究表明,在主干网络之后加入一个线性投影头可以显著提高模型性能。在这项工作中,我们研究了在 CL 框架内使用 Transformer 模型作为投影头的可能性,旨在利用 Transformer 捕获嵌入之间长距离依赖关系的能力来进一步提高性能。我们的主要贡献有四点:首先,我们介绍了一种在投影头角色中使用 Transformer 的新颖应用,这是该领域的首创。其次,我们的实验揭示了一种引人注目的“深度融合”现象,其中注意力机制在更深层中逐渐捕获来自同一类的样本之间的正确关系依赖性。第三,我们提供了一个理论框架来解释和支持这种“深度融合”行为。最后,我们通过实验结果证明,与使用前馈层的现有方法相比,我们的模型取得了更好的性能。