LLM2D

摘要

arXiv:2501.14940v2 安全公告类型: 替换交叉摘要：使大型语言模型（LLMs）与人类价值观对齐对于它们的安全部署和广泛采用至关重要。当前的LLM安全基准测试通常仅关注对个别有问题查询的拒绝，而忽视了查询发生的上下文的重要性，可能会导致在安全上下文中错误地拒绝查询，从而损害用户体验。为了解决这一差距，我们引入了CASE-Bench，这是一个基于上下文的安全基准，将上下文整合到对LLM的安全评估中。CASE-Bench 根据Contextual Integrity理论为分类后的查询分配不同的、正式描述的上下文。此外，与之前的研究主要依赖少数几名注释者的多数投票不同，我们根据功效分析招聘了足够的注释者，以确保在实验条件下能够检测到统计上显著的差异。通过使用CASE-Bench 对各种开源和商用LLM进行广泛分析，我们发现上下文对人类判断有显著的影响（从Z检验中得出 p<0.0001），强调了上下文在安全评估中的必要性。我们还识别出在安全上下文中，人类判断与LLM响应之间存在值得注意的不匹配，特别是在商用模型中。