LLM2D

摘要

arXiv:2503.20848v1 宣布类型:横跨摘要:最近的政策提案旨在提高通用人工智能的安全性，但对不同监管方法在人工智能安全方面的有效性理解甚少。我们提出了一种战略模型，探讨监管者、通用人工智能技术创造者和领域专家（即为特定应用调整AI的人）之间的互动。我们的分析研究了不同监管措施对开发过程结果的影响，尤其是在开发链的不同环节针对性地发挥作用。具体而言，我们假定人工智能技术具有两个关键属性：安全性和性能。监管者首先设定一个适用于一个或两个参与者的基本安全标准，并对不合规行为实施严厉的惩罚。然后，通用技术创造者开发技术，确定其初始的安全性和性能水平。接着，领域专家针对具体应用场景优化AI，最终收益通过事前谈判在专家和通用技术创造者之间分配。我们的博弈分析揭示了两个关键见解：首先，仅对领域专家施加较弱的安全监管可能会适得其反。虽然从逻辑上来看，监管具体应用场景（而非通用技术本身）似乎是更为直接的选择，但我们的分析表明，仅针对领域专家的较弱监管可能会无意中降低安全性。这一效应在广泛的环境下都存在。其次，与上述发现形成鲜明对比的是，我们观察到，适当的、有针对性的监管实际上可以惠及所有受监管的参与者。当监管者对人工智能创造者和领域专家都施加适当的安全标准时，监管将作为一种承诺机制，导致安全性和性能的提升，超过在无监管或仅监管一方的情况下所能达到的效果。