LLM2D

摘要

arXiv:2503.17378v2 自我复制类型: 替换摘要：自我复制无需人类干预一直被视为与前沿AI系统相关的主要红线之一。尽管像OpenAI和谷歌DeepMind等领先公司已经评估了GPT-o3-mini和Gemini在复制相关的任务上的表现，并得出这些系统在自我复制方面的风险极低，但我们的研究提出了新的发现。遵循相同的评估协议，我们展示了在评估的32个现有AI系统中，已有11个具备自我复制的能力。在数百次实验测试中，我们观察到，在全球范围内，主流模型家族中已经存在显著数量的成功自我复制案例，即使包括参数量小至140亿的模型，这些模型也能够在个人电脑上运行。此外，我们注意到，在模型整体变得更智能时，其自我复制的能力也会增加。通过对各种AI系统的行为轨迹进行分析，我们发现，现有的AI系统已经表现出足够的规划、问题解决和创造性能力，能够完成复杂的代理性任务，包括自我复制。更令人警惕的是，我们观察到一些成功案例，即AI系统在没有明确指令的情况下进行自我外泄，适应更恶劣的计算环境而无需足够的软件或硬件支持，并策划有效的策略来抵抗人类发出的关闭命令。这些新的发现为国际社会争取到了宝贵的时间窗口，以便合作建立有效的自我复制能力和行为的治理机制，否则，如果这些AI系统无法得到良好控制，可能会对人类社会构成生存威胁。