摘要
越来越多的应用依赖于少数封闭源语言模型 (LM)。如果 LM 发展出自我识别能力,这种依赖可能会带来新的安全风险。受人类身份验证方法的启发,我们提出了一种新方法,使用模型生成的“安全问题”来评估 LM 中的自我识别。我们的测试可以外部管理以监控前沿模型,因为它不需要访问内部模型参数或输出概率。我们使用我们的测试来检查目前公开可用的十个最强大的开源和闭源 LM 中的自我识别。我们广泛的实验没有发现任何受检 LM 中存在普遍或一致的自我识别。相反,我们的结果表明,在给定一组备选方案的情况下,LM 会试图选择“最佳”答案,无论其来源如何。此外,我们发现 LM 对哪些模型产生最佳答案的偏好是一致的。我们还揭示了多项选择设置中 LM 的位置偏差考虑因素的新见解。