摘要
arXiv:2504.18565v1 安全公告类型:跨领域
摘要:语言模型代理的不可控自主复制构成了一个关键的安全风险。为了更好地理解这一风险,我们介绍了RepliBench,这是一个评估套件,旨在衡量自主复制能力。RepliBench源于这些能力的核心领域的分解,涵盖了四个核心领域:获取资源、泄露模型权重、在计算资源上复制和在一个平台上持久存在很长时间。我们创建了20个新的任务家族,其中包含86个单独的任务。我们评估了5个前沿模型,并发现它们目前还不构成自我复制的可信威胁,但在许多组件上表现良好,并且正在快速改进。模型可以从云计算提供商部署实例、编写自我传播的程序,并在简单的安全设置下泄露模型权重,但在通过KYC检查或设置稳健且持久的代理部署方面存在困难。总体而言,我们评估的最佳模型(Claude 3.7 Sonnet)在15/20个任务家族中获得了超过50%的通过率@10,而在最难变体的9/20家族中也获得了超过50%的通过率@10。这些发现表明,在这些剩余领域取得改进或在人类协助下,自主复制能力可能会很快出现。