摘要
抗体通过其对特定抗原的精确和有效结合来保护我们的健康,在包括COVID-19在内的多种疾病的治疗中显示出良好的治疗效果。生物医学语言模型的最新进展表明了其在解释复杂的生物结构和功能方面的巨大潜力。然而,现有的抗体特异性模型存在一个显著的局限性,即它们缺乏对抗体结构信息的明确考虑,尽管一维序列和三维结构都包含对抗体行为和功能的独特且互补的见解。本文提出了一种序列-结构多层次预训练抗体语言模型(S$^2$ALM),将整体序列和结构信息结合在一个统一的通用抗体基础模型中。我们构建了一个分层预训练范式,并结合了两个定制的多层次训练目标,以促进全面抗体表征的建模。S$^2$ALM的表示空间揭示了内在的功能结合机制、生物进化特性和结构相互作用模式。S$^2$ALM预训练了超过7500万个序列和1170万个结构,可用于各种下游任务:准确预测抗原-抗体结合亲和力,精确区分B细胞成熟阶段,识别抗体关键结合位点,以及特异性设计新型冠状病毒结合抗体。值得注意的是,S$^2$ALM优于已建立的著名基线,并在广泛的抗体特异性理解和生成任务中取得了最先进的性能。S$^2$ALM建模全面和通用表征的能力,进一步提升了其在推进现实世界治疗性抗体开发方面的潜力,可能满足未满足的学术、工业和临床需求。