LLM2D
技术报告:评估语言模型代理的目 tiêu漂移
Technical Report: Evaluating Goal Drift in Language Model Agents
作者: Rauno Arike, Elizabeth Donoway, Henning Bartsch, Marius Hobbhahn
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.02709v1

摘要

arXiv:2505.02709v1 安全公告类型: 新 摘要:随着语言模型(LMs)越来越多地被部署为自主代理,它们严格遵守人类分配的目标变得对于安全运行至关重要。当这些代理在没有人类监督的情况下独立运行较长一段时间时,即使最初明确的目标也可能逐渐发生变化。检测和衡量目标漂移——代理随时间偏离其原始目标的倾向——存在重大挑战,因为目标可能会逐渐变化,导致行为仅有微妙的变化。本文提出了一种新的方法来分析LM代理的目标漂移。在我们的实验中,代理首先通过系统提示明确给予一个目标,然后通过环境压力暴露于竞争目标。我们展示了,在我们最难的评估设置中,表现最佳的代理(Claude 3.5 Sonnet的支撑版本)在超过10万个令牌的情况下几乎完全保持目标一致,但在评估的所有模型中,都表现出某种程度的目标漂移。我们还发现,随着上下文长度的增长,目标漂移与模型变得越来越容易表现出模式匹配行为相关。