摘要
大型语言模型(LLM)的进步及其广泛应用令人瞩目,包括其在科学研究辅助中的应用。然而,这些模型常常生成科学上不准确或不安全的回应,在某些情况下,它们甚至可能诱导用户从事危险行为。为了解决化学领域中的这一问题,我们引入了ChemSafetyBench,这是一个旨在评估LLM回应的准确性和安全性的基准测试。ChemSafetyBench包含三个关键任务:查询化学性质、评估化学用途的合法性以及描述合成方法,每个任务都需要越来越深入的化学知识。我们的数据集包含超过3万个关于各种化学材料的样本。我们结合手工制作的模板和高级越狱场景来增强任务的多样性。我们的自动化评估框架彻底评估了LLM回应的安全、准确性和适当性。对最先进LLM的大量实验揭示了其显著的优势和严重的漏洞,强调了加强安全措施的必要性。ChemSafetyBench旨在成为开发更安全的化学人工智能技术的关键工具。我们的代码和数据集可在https://github.com/HaochenZhao/SafeAgent4Chem获取。警告:本文包含使用人工智能模型合成受控化学品的讨论。