LLM2D

摘要

arXiv:2505.02709v1 安全公告类型: 新摘要：随着语言模型（LMs）越来越多地被部署为自主代理，它们严格遵守人类分配的目标变得对于安全运行至关重要。当这些代理在没有人类监督的情况下独立运行较长一段时间时，即使最初明确的目标也可能逐渐发生变化。检测和衡量目标漂移——代理随时间偏离其原始目标的倾向——存在重大挑战，因为目标可能会逐渐变化，导致行为仅有微妙的变化。本文提出了一种新的方法来分析LM代理的目标漂移。在我们的实验中，代理首先通过系统提示明确给予一个目标，然后通过环境压力暴露于竞争目标。我们展示了，在我们最难的评估设置中，表现最佳的代理（Claude 3.5 Sonnet的支撑版本）在超过10万个令牌的情况下几乎完全保持目标一致，但在评估的所有模型中，都表现出某种程度的目标漂移。我们还发现，随着上下文长度的增长，目标漂移与模型变得越来越容易表现出模式匹配行为相关。