LLM2D

摘要

在“快速行动，打破常规”的时代，监管机构在应对人工智能（AI）部署所带来的安全、偏见和法律问题方面进展缓慢。由于像大型语言模型这样的 AI 模型能够传播错误信息并加剧社会分化，因此监管机构必须采用一种框架来减轻这些风险并确保用户安全。虽然关于如何解决最先进 AI 模型的安全、偏见和法律问题存在很多合理的讨论，但缺乏严格且现实的数学框架来规范 AI 安全。我们着手解决这一挑战，提出了一种基于拍卖的监管机制，该机制可以证明激励模型构建代理（i）部署更安全的模型，以及（ii）参与监管过程。我们通过推导的纳什均衡证明保证，每个参与代理的最佳策略是提交一个比规定的最低安全阈值更安全的模型。实证结果表明，我们的监管拍卖将安全性和参与率分别提高了 20% 和 15%，优于仅仅执行最低安全标准的简单监管框架。