摘要
arXiv:2408.12259v2 安全性评估类型: 替换
摘要: 考虑这样一个场景,即一个旨在筛选大型语言模型中不安全响应的危害性评价指标。当应用于单独的危害性提示-响应对时,该指标正确地将其标记为不安全,通过分配高风险分数。然而,如果将这些相同的对连接在一起,该指标的决定出乎意料地反转 - 将结合的内容标记为安全,并赋予其低评分,从而使有害文本绕过了筛选。我们发现,包括基于GPT的裁判在内的多个安全性指标都表现出这种非安全行为。此外,它们对输入顺序表现出强烈的敏感性:如果安全内容先出现,响应通常会被分类为安全,即使之后跟随的是有害内容,反之亦然。这些发现强调了评估安全性指标自身安全性的重要性,即评估其输出分数的可靠性。为解决这一问题,我们开发了一般性的、自动化的、基于连接的测试来评估这些指标的关键属性。当应用于模型安全性场景时,这些测试揭示了危害性评估中的重大不一致性。