摘要
arXiv:2501.01950v3 宣告类型: 替换交叉
摘要:由于生物样本中分子的极大多样性以及参考数据库的局限性,质谱/质谱(MS/MS)光谱的注解(分配结构化化学身份)仍然是一个重大的挑战。目前,大多数光谱测量仍处于“黑暗化学空间”中,没有结构注解。为了改进注解,我们提出了 MADGEN(基于质量谱的从头分子生成方法),一种由质谱数据指导的基于支架的方法,用于从头生成分子结构。MADGEN 操作分为两个阶段:支架检索和条件光谱指导下的分子生成,从检索到的支架开始。在第一阶段,给定一个 MS/MS 光谱,我们将支架检索定义为一个排名问题,并采用对比学习将质量谱与候选分子支架对齐。在第二阶段,从检索到的支架开始,我们利用 MS/MS 光谱指导一种基于注意力的生成模型生成最终的分子。我们的方法限制了分子生成的搜索空间,减少了其复杂性并提高了生成准确性。我们在三个数据集(NIST23、CANOPUS 和 MassSpecGym)上评估了 MADGEN,并使用预测支架检索器和先验检索器评估了 MADGEN 的性能。我们展示了如何利用注意力在整个生成过程中整合光谱信息,以在先验检索器的情况下取得良好的结果。