摘要
arXiv:2412.07430v2 安全类型:替换交叉
摘要:为了安全地部署语言模型,它们必须避免对不当请求进行响应。多项先前研究基于模型阻止恶意请求的有效性来测试模型的安全承诺。在本项工作中,我们专注于评估导致模型避免响应的技术。我们创建了SELECT,这是一个基于知识图谱中的一系列良性概念(例如,“河流”)的基准。专注于良性概念隔离了安全训练的效果,并将这些概念置于知识图谱中,使我们能够研究回避技术的一般化能力和特异性。利用SELECT,我们在六个开源和闭源模型上对标了不同的回避技术。我们发现,所检查的技术确实导致模型的回避率为超过80%。然而,这些技术对于目标概念的后裔而言并不那么有效,其中的回避率下降了19%。我们还分析了不同技术的一般化和特异性之间的权衡。总体而言,没有一种技术始终优于其他技术,我们的发现为实践者提供了各种权衡的指导。