摘要
大型语言模型(LLMs)具有彻底改变科学研究的潜力,但其在特定领域应用中的稳健性和可靠性仍未得到充分探索。本研究对材料科学领域内的LLMs进行了全面的评估和稳健性分析,重点关注领域特定的问答和材料性能预测。本研究使用了三个不同的数据集:1)一组来自本科材料科学课程的多项选择题,2)包含各种钢成分和屈服强度的数据集,3)包含材料晶体结构文本描述和带隙值的带隙数据集。通过多种提示策略评估LLMs的性能,包括零样本链式思维、专家提示和少样本上下文学习。这些模型的稳健性通过各种形式的“噪声”进行测试,从现实干扰到故意的对抗性操作,以评估其在实际条件下的弹性和可靠性。此外,研究揭示了LLMs在预测任务中的独特现象,如当提示示例的接近度改变时出现的模式崩溃行为,以及训练/测试不匹配带来的性能提升。研究结果旨在为LLMs在材料科学中的广泛应用提供有根据的怀疑,并激发提升其稳健性和可靠性的进步,以实现实际应用。