LLM2D

摘要

arXiv:2408.12259v2 安全性评估类型: 替换摘要: 考虑这样一个场景，即一个旨在筛选大型语言模型中不安全响应的危害性评价指标。当应用于单独的危害性提示-响应对时，该指标正确地将其标记为不安全，通过分配高风险分数。然而，如果将这些相同的对连接在一起，该指标的决定出乎意料地反转 - 将结合的内容标记为安全，并赋予其低评分，从而使有害文本绕过了筛选。我们发现，包括基于GPT的裁判在内的多个安全性指标都表现出这种非安全行为。此外，它们对输入顺序表现出强烈的敏感性：如果安全内容先出现，响应通常会被分类为安全，即使之后跟随的是有害内容，反之亦然。这些发现强调了评估安全性指标自身安全性的重要性，即评估其输出分数的可靠性。为解决这一问题，我们开发了一般性的、自动化的、基于连接的测试来评估这些指标的关键属性。当应用于模型安全性场景时，这些测试揭示了危害性评估中的重大不一致性。