摘要
arXiv:2505.02709v1 安全公告类型: 新
摘要:随着语言模型(LMs)越来越多地被部署为自主代理,它们严格遵守人类分配的目标变得对于安全运行至关重要。当这些代理在没有人类监督的情况下独立运行较长一段时间时,即使最初明确的目标也可能逐渐发生变化。检测和衡量目标漂移——代理随时间偏离其原始目标的倾向——存在重大挑战,因为目标可能会逐渐变化,导致行为仅有微妙的变化。本文提出了一种新的方法来分析LM代理的目标漂移。在我们的实验中,代理首先通过系统提示明确给予一个目标,然后通过环境压力暴露于竞争目标。我们展示了,在我们最难的评估设置中,表现最佳的代理(Claude 3.5 Sonnet的支撑版本)在超过10万个令牌的情况下几乎完全保持目标一致,但在评估的所有模型中,都表现出某种程度的目标漂移。我们还发现,随着上下文长度的增长,目标漂移与模型变得越来越容易表现出模式匹配行为相关。