摘要
arXiv:2504.15499v1 宣布类型: cross
摘要: 随着人工智能模型在金融、医疗保健和军事等关键领域中的嵌入,它们不可预测的行为给社会带来了越来越大的风险。为了减轻这种风险,我们提出了Guillotine,一种用于隔离强大人工智能模型的虚拟机架构——这些模型因意外或恶意行为,可能会对人类构成生存威胁。虽然Guillotine借鉴了一些众所周知的虚拟化技术,但Guillotine也需要引入根本上的新隔离机制以应对由生存风险人工智能所带来的独特威胁模型。例如,一个误操作的人工智能可能会试图反向探究虚拟机软件或支持虚拟机软件的底层硬件基础,以便在以后反向侵入控制平面;因此,Guillotine虚拟机软件需要谨慎地设计与支持虚拟机软件的CPU、内存、网卡和存储设备之间的协同,以防止侧信道泄露,并且更广泛地消除人工智能利用反射性漏洞的机制。除了在软件、网络和微架构层面的隔离之外,Guillotine虚拟机还必须提供更常见的物理应急措施,类似于核电厂、航空平台和其他关键任务系统的应急措施。例如,物理应急措施可能涉及断开网络电缆的机电连接,或者淹没持有误操作人工智能的数据中心,以在软件、网络和微架构隔离被突破且必须暂时关闭或永久销毁一个误操作人工智能时提供多层次防御。