摘要
大型语言模型 (LLMs) 为强大的语言处理工具创造了令人兴奋的可能性,可以加速材料科学研究。虽然 LLMs 在加速材料理解和发现方面具有巨大潜力,但它们目前还无法成为实用的材料科学工具。在本立场文件中,我们展示了 LLM 在材料科学中的相关失败案例,揭示了 LLM 在理解和推理复杂、相互关联的材料科学知识方面的当前局限性。鉴于这些不足,我们概述了一个开发基于材料科学知识和假设生成,并随后进行假设检验的材料科学 LLM (MatSci-LLMs) 的框架。实现高性能 MatSci-LLMs 的途径在很大程度上取决于构建高质量、多模态数据集,这些数据集来自科学文献,其中存在各种信息提取挑战。因此,我们描述了构建能够捕获有价值的材料科学知识的大规模、多模态数据集需要克服的关键材料科学信息提取挑战。最后,我们概述了将未来的 MatSci-LLMs 应用于现实世界材料发现的路线图:1. 自动化知识库生成;2. 自动化计算机模拟材料设计;以及 3. MatSci-LLM 集成自驾驶材料实验室。