LLM2D
JESTR:用于靶向代谢组学数据注释候选分子排序的联合嵌入空间技术
JESTR: Joint Embedding Space Technique for Ranking Candidate Molecules for the Annotation of Untargeted Metabolomics Data
作者: Apurva Kalia, Dilip Krishnan, Soha Hassoun
发布日期: 11/27/2024
arXiv ID: oai:arXiv.org:2411.14464v2

摘要

代谢组学中的一个主要挑战是注释:将分子结构分配给质谱裂解模式。尽管分子到光谱和光谱到分子指纹预测 (FP) 近期取得了进展,但注释率仍然很低。本文介绍了一种新的注释范式 (JESTR)。与先前明确构建分子指纹或光谱的方法不同,JESTR 利用了分子及其相应光谱是同一数据的不同视图这一见解,并有效地将其表示嵌入到一个联合空间中。候选结构的排名基于查询光谱与每个候选物的嵌入之间的余弦相似度。我们在三个数据集上将 JESTR 与 mol-to-spec 和 spec-to-FP 注释工具进行了比较。平均而言,在 rank@[1-5] 上,JESTR 的性能优于其他工具 23.6%-71.6%。我们进一步证明了在训练过程中使用候选分子进行正则化的强大价值,将 rank@1 的性能提高了 11.4%,并增强了模型区分目标分子和候选分子的能力。通过 JESTR,我们提供了一条通往精确注释的新途径,从而揭示了代谢组学中的宝贵见解。