摘要
arXiv:2503.23668v1 宣告类型: 新
摘要: 当前的分子理解方法主要集中在人类感知的描述方面,提供了广泛的主题级洞察。然而,指称方面——将分子概念与具体的结构组件关联起来——仍然很大程度上未被探索。为了弥补这一缺口,我们提出了一种分子基座基准,旨在评估模型的指称能力。我们将分子基座与NLP、化学信息学和分子科学中已建立的惯例相结合,展示了自然语言处理技术在AI for Science运动中推进分子理解的潜力。此外,我们构建了迄今为止最大的分子理解基准,包含79,000个问答对,并开发了一个多代理基座原型作为概念验证。该系统在现有模型(包括GPT-4o)中表现出色,并将其基座输出整合到传统的任务中,如分子描述和ATC(解剖学、治疗学、化学)分类中。