摘要
arXiv:2410.19110v3 更新类型: 替换-交叉
摘要:高效地编码和表示大型高保真3D分子结构对于生物分子设计应用至关重要。尽管如此,许多表示学习方法仍然限制在建模较小的系统或使用系统的粗粒度近似,例如在氨基酸残基的分辨率上建模蛋白质,而不是在原子水平上建模。为解决这一问题,我们开发了量化自动编码器,能够学习完整的蛋白质、RNA和小分子结构的原子级标记,重建准确性低于1埃。我们证明,简单的Mamba状态空间模型架构相比SE(3)不变的IPA架构更高效,达到了可竞争的准确性,并且可以扩展到几乎有10万个原子的大系统。bio2token 学习到的结构标记可能在未来作为所有原子生成模型的输入使用。