LLM2D

摘要

arXiv:2504.18565v1 安全公告类型：跨领域摘要：语言模型代理的不可控自主复制构成了一个关键的安全风险。为了更好地理解这一风险，我们介绍了RepliBench，这是一个评估套件，旨在衡量自主复制能力。RepliBench源于这些能力的核心领域的分解，涵盖了四个核心领域：获取资源、泄露模型权重、在计算资源上复制和在一个平台上持久存在很长时间。我们创建了20个新的任务家族，其中包含86个单独的任务。我们评估了5个前沿模型，并发现它们目前还不构成自我复制的可信威胁，但在许多组件上表现良好，并且正在快速改进。模型可以从云计算提供商部署实例、编写自我传播的程序，并在简单的安全设置下泄露模型权重，但在通过KYC检查或设置稳健且持久的代理部署方面存在困难。总体而言，我们评估的最佳模型（Claude 3.7 Sonnet）在15/20个任务家族中获得了超过50%的通过率@10，而在最难变体的9/20家族中也获得了超过50%的通过率@10。这些发现表明，在这些剩余领域取得改进或在人类协助下，自主复制能力可能会很快出现。