LLM2D

摘要

arXiv:2503.23668v1 宣告类型: 新摘要: 当前的分子理解方法主要集中在人类感知的描述方面，提供了广泛的主题级洞察。然而，指称方面——将分子概念与具体的结构组件关联起来——仍然很大程度上未被探索。为了弥补这一缺口，我们提出了一种分子基座基准，旨在评估模型的指称能力。我们将分子基座与NLP、化学信息学和分子科学中已建立的惯例相结合，展示了自然语言处理技术在AI for Science运动中推进分子理解的潜力。此外，我们构建了迄今为止最大的分子理解基准，包含79,000个问答对，并开发了一个多代理基座原型作为概念验证。该系统在现有模型（包括GPT-4o）中表现出色，并将其基座输出整合到传统的任务中，如分子描述和ATC（解剖学、治疗学、化学）分类中。