LLM2D
CASE-Bench: 具有情境意识的安全基准测试用于大型语言模型
CASE-Bench: Context-Aware SafEty Benchmark for Large Language Models
作者: Guangzhi Sun, Xiao Zhan, Shutong Feng, Philip C. Woodland, Jose Such
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2501.14940v2

摘要

arXiv:2501.14940v2 安全公告类型: 替换交叉 摘要:使大型语言模型(LLMs)与人类价值观对齐对于它们的安全部署和广泛采用至关重要。当前的LLM安全基准测试通常仅关注对个别有问题查询的拒绝,而忽视了查询发生的上下文的重要性,可能会导致在安全上下文中错误地拒绝查询,从而损害用户体验。为了解决这一差距,我们引入了CASE-Bench,这是一个基于上下文的安全基准,将上下文整合到对LLM的安全评估中。CASE-Bench 根据Contextual Integrity理论为分类后的查询分配不同的、正式描述的上下文。此外,与之前的研究主要依赖少数几名注释者的多数投票不同,我们根据功效分析招聘了足够的注释者,以确保在实验条件下能够检测到统计上显著的差异。通过使用CASE-Bench 对各种开源和商用LLM进行广泛分析,我们发现上下文对人类判断有显著的影响(从Z检验中得出 p<0.0001),强调了上下文在安全评估中的必要性。我们还识别出在安全上下文中,人类判断与LLM响应之间存在值得注意的不匹配,特别是在商用模型中。