摘要
arXiv:2504.20924v2 安全类型: 修订
摘要:确保人工智能系统安全最近已成为实现实用部署的关键优先事项,特别是在物理人工智能应用中。当前的人工智能安全方法通常仅处理预定义的具体领域安全条件,限制了它们在不同环境中的泛化能力。我们提出了一种新的人工智能安全框架,该框架确保人工智能系统遵守任何用户定义的约束,并在任何期望的概率范围内满足这些约束,而且适用于各种领域。在该框架中,我们将一个人工智能组件(例如,神经网络)与一个优化问题结合,生成既能最小化目标又能以超过用户定义阈值的概率满足用户定义约束的响应。为了评估人工智能组件的可信度,我们提出了内部测试数据、一个补充的安全标签数据集以及一种保守的测试方法,该方法提供了使用内部测试数据的统计有效性。我们还提出了一种损失函数的近似方法及其梯度的计算方法,以便进行训练。我们通过特定的温和条件证明了概率约束满足是保证的,并证明了安全性与内部测试数据数量之间的规模定律。我们通过在不同领域的实验展示了该框架的有效性:生产决策中的需求预测、SafetyGym模拟器中的安全强化学习以及保护人工智能聊天机器人输出。通过这些实验,我们证明了该方法能够保证用户指定约束的安全性,在低安全阈值区域中比现有方法高出几个数量级,并且随着内部测试数据量的增加能够有效扩展。