LLM2D

摘要

大型语言模型（LLMs）具有彻底改变科学研究的潜力，但其在特定领域应用中的稳健性和可靠性仍未得到充分探索。本研究对材料科学领域内的LLMs进行了全面的评估和稳健性分析，重点关注领域特定的问答和材料性能预测。本研究使用了三个不同的数据集：1）一组来自本科材料科学课程的多项选择题，2）包含各种钢成分和屈服强度的数据集，3）包含材料晶体结构文本描述和带隙值的带隙数据集。通过多种提示策略评估LLMs的性能，包括零样本链式思维、专家提示和少样本上下文学习。这些模型的稳健性通过各种形式的“噪声”进行测试，从现实干扰到故意的对抗性操作，以评估其在实际条件下的弹性和可靠性。此外，研究揭示了LLMs在预测任务中的独特现象，如当提示示例的接近度改变时出现的模式崩溃行为，以及训练/测试不匹配带来的性能提升。研究结果旨在为LLMs在材料科学中的广泛应用提供有根据的怀疑，并激发提升其稳健性和可靠性的进步，以实现实际应用。