LLM2D
SciSafeEval:用于科学任务中大型语言模型安全对齐的综合基准测试
SciSafeEval: A Comprehensive Benchmark for Safety Alignment of Large Language Models in Scientific Tasks
作者: Tianhao Li, Jingyu Lu, Chuangxin Chu, Tianyu Zeng, Yujia Zheng, Mei Li, Haotian Huang, Bin Wu, Zuoxian Liu, Kai Ma, Xuejing Yuan, Xingkai Wang, Keyan Ding, Huajun Chen, Qiang Zhang
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.03769v1

摘要

大型语言模型(LLMs)已对跨学科的各种科学任务产生了变革性影响,包括生物学、化学、医学和物理学。然而,确保这些模型在科学研究中的安全一致性仍然是一个未充分探索的领域,现有的基准主要关注文本内容,而忽略了分子、蛋白质和基因组语言等关键的科学表示。此外,LLMs 在科学任务中的安全机制研究不足。为了解决这些局限性,我们引入了 SciSafeEval,这是一个全面的基准,旨在评估 LLMs 在一系列科学任务中的安全一致性。SciSafeEval 涵盖多种科学语言——包括文本、分子、蛋白质和基因组——并涵盖广泛的科学领域。我们在零样本、少样本和思维链设置中评估 LLMs,并引入了一个“越狱”增强功能,该功能挑战配备安全护栏的 LLMs,严格测试它们抵御恶意意图的防御能力。我们的基准在规模和范围上都超过了现有的安全数据集,为评估 LLMs 在科学环境中的安全性和性能提供了强大的平台。这项工作旨在促进 LLMs 的负责任开发和部署,促进与科学研究中的安全和道德标准保持一致。