LLM2D

摘要

大型语言模型 (LLMs) 为强大的语言处理工具创造了令人兴奋的可能性，可以加速材料科学研究。虽然 LLMs 在加速材料理解和发现方面具有巨大潜力，但它们目前还无法成为实用的材料科学工具。在本立场文件中，我们展示了 LLM 在材料科学中的相关失败案例，揭示了 LLM 在理解和推理复杂、相互关联的材料科学知识方面的当前局限性。鉴于这些不足，我们概述了一个开发基于材料科学知识和假设生成，并随后进行假设检验的材料科学 LLM (MatSci-LLMs) 的框架。实现高性能 MatSci-LLMs 的途径在很大程度上取决于构建高质量、多模态数据集，这些数据集来自科学文献，其中存在各种信息提取挑战。因此，我们描述了构建能够捕获有价值的材料科学知识的大规模、多模态数据集需要克服的关键材料科学信息提取挑战。最后，我们概述了将未来的 MatSci-LLMs 应用于现实世界材料发现的路线图：1. 自动化知识库生成；2. 自动化计算机模拟材料设计；以及 3. MatSci-LLM 集成自驾驶材料实验室。