摘要
arXiv:2501.08897v2 通知类型: 替换
摘要:在材料化学中识别可靠的合成路径是一项复杂任务,尤其是在聚合物科学中,由于高分子化合物名称的复杂性和往往不是唯一的命名方式。为应对这一挑战,我们提出了一种结合大规模语言模型(LLMs)和知识图谱的代理系统。通过利用LLMs强大的提取和识别化学物质名称的能力,并将提取的数据存储在结构化的知识图谱中,我们的系统完全自动化了相关文献检索、反应数据提取、数据库查询、逆合成路径树构建,以及通过检索额外文献进一步扩展并推荐最优反应路径。考虑到化学反应物之间的复杂相互依赖性,我们提出了一种新的多分支反应路径搜索算法(MBRPS),帮助识别当一个单一产物分解成多种反应中间体时的所有有效多分支反应路径。相比之下,以往的研究仅限于产物最多分解成一个反应中间体的情况。本工作代表了利用LLMs开发专门适用于高分子的全自动逆合成规划代理系统的第一尝试。应用于聚酰亚胺合成,我们新的方法构建了一棵包含数百条路径的逆合成路径树,并推荐了包括已知和新颖路径在内的优化路线。这表明利用LLMs进行文献咨询以完成特定任务是可能且对于未来的材料研究至关重要,考虑到材料相关的文献量极其庞大。