LLM2D

摘要

arXiv:2501.14940v3 安全公告类型: 替换-交叉摘要：让大规模语言模型（LLMs）与人类价值观相一致是其安全部署和广泛采用的关键。当前的LLM安全基准通常仅关注对个体问题的拒绝，这忽视了查询发生的上下文的重要性，并且可能导致在安全上下文中错误地拒绝查询，从而损害用户体验。为解决这一差距，我们引入了CAS-E-Bench，这是一种上下文感知安全基准，将上下文纳入对LLM的安全评估中。CAS-E-Bench根据上下文完整性理论，为归类的查询分配不同的、正式描述的上下文。此外，与之前的大多数研究主要依赖少数几个注释者的多数投票不同，我们根据功效分析招募了足够的注释者以确保在实验条件下检测到统计显著差异。通过对各种开源和商业LLM的广泛分析使用CAS-E-Bench揭示了上下文对人类判断有显著影响（从z检验结果来看，p<0.0001），强调了在安全性评估中考虑上下文的必要性。我们还识别出，在安全上下文中，人类判断与LLM响应之间存在显著的不一致，特别是在商业模型中。