摘要
arXiv:2501.01950v4 宣告类型:替换交叉
摘要:对MS/MS光谱进行注释(分配结构化学身份)仍是一个重大挑战,这主要是由于生物样品中的分子多样性巨大以及参考数据库的范围有限。目前,绝大多数光谱测量仍然处于“黑暗化学空间”中,没有结构注释。为了提高注释效果,我们提出了MADGEN(基于质谱的从头分子生成),这是一种由质谱数据引导的基于骨架的从头分子结构生成方法。MADGEN 运行在两个阶段:骨架检索和基于光谱条件的分子生成。在第一个阶段,给定一个MS/MS光谱,我们将骨架检索形式化为一个排名问题,并使用对比学习来将质谱与候选分子骨架对齐。在第二个阶段,从检索到的骨架出发,我们利用MS/MS光谱来引导基于注意力的生成模型生成最终的分子。我们的方法限制了分子生成搜索空间,减少了其复杂性并提高了生成准确性。我们在三个数据集(NIST23、CANOPUS 和 MassSpecGym)上评估了MADGEN,并分别使用预测骨架检索器和先验骨架检索器评估了MADGEN的性能。我们展示了使用注意力在整个生成过程中整合光谱信息的有效性,并使用先验检索器取得了出色的結果。