摘要
arXiv:2503.20848v1 宣布类型:横跨
摘要:最近的政策提案旨在提高通用人工智能的安全性,但对不同监管方法在人工智能安全方面的有效性理解甚少。我们提出了一种战略模型,探讨监管者、通用人工智能技术创造者和领域专家(即为特定应用调整AI的人)之间的互动。我们的分析研究了不同监管措施对开发过程结果的影响,尤其是在开发链的不同环节针对性地发挥作用。具体而言,我们假定人工智能技术具有两个关键属性:安全性和性能。监管者首先设定一个适用于一个或两个参与者的基本安全标准,并对不合规行为实施严厉的惩罚。然后,通用技术创造者开发技术,确定其初始的安全性和性能水平。接着,领域专家针对具体应用场景优化AI,最终收益通过事前谈判在专家和通用技术创造者之间分配。我们的博弈分析揭示了两个关键见解:首先,仅对领域专家施加较弱的安全监管可能会适得其反。虽然从逻辑上来看,监管具体应用场景(而非通用技术本身)似乎是更为直接的选择,但我们的分析表明,仅针对领域专家的较弱监管可能会无意中降低安全性。这一效应在广泛的环境下都存在。其次,与上述发现形成鲜明对比的是,我们观察到,适当的、有针对性的监管实际上可以惠及所有受监管的参与者。当监管者对人工智能创造者和领域专家都施加适当的安全标准时,监管将作为一种承诺机制,导致安全性和性能的提升,超过在无监管或仅监管一方的情况下所能达到的效果。