LLM2D

摘要

计算预测 T 细胞受体 (TCR) 与其配体的相互作用是免疫学中的一个重大挑战。尽管高通量测定技术取得了进展，但特异性标记的 TCR 数据仍然稀少。在其他领域，语言模型在未标记数据上的预训练已被成功地用于解决数据瓶颈问题。然而，尚不清楚如何最好地预训练蛋白质语言模型以进行 TCR 特异性预测。在这里，我们介绍了一种名为 SCEPTR (T 细胞受体初级序列的简单对比嵌入) 的 TCR 语言模型，它能够进行数据高效的迁移学习。通过我们的模型，我们引入了一种新的预训练策略，将自动对比学习和掩码语言建模相结合，这使得 SCEPTR 能够实现其最先进的性能。相比之下，现有的蛋白质语言模型和未经自动对比学习预训练的 SCEPTR 变体在基于序列比对的方法中表现不佳。我们预计对比学习将是一个有用的范式，用于解码 TCR 特异性的规则。