LLM2D

摘要

arXiv:2504.20924v1 安全类型: 新摘要: 确保人工智能系统的安全已成为实际部署中的一项关键优先事项，特别是在物理人工智能应用中。当前的人工智能安全方法通常针对预定义的特定领域安全条件，限制了它们在不同情境下的泛化能力。我们提出了一种新的人工智能安全框架，该框架确保人工智能系统遵守**任何用户定义的约束**，以**任何期望的概率**，并且在**各种领域**中均有效。在该框架中，我们将一个人工智能组件（例如，神经网络）与一个优化问题结合起来，以产生同时最小化目标并满足用户定义约束的概率超过用户定义阈值的响应。为了验证人工智能组件的可信度，我们提出了一种**内部测试数据**，即一个补充的安全标记数据集，以及一种**保守的测试方法**，可为使用内部测试数据提供统计有效性。我们还介绍了一种损失函数的近似方法及其梯度的计算方法。我们从特定的轻微条件下证明了概率约束满足是可以得到保证的，并证明了安全性和内部测试数据数量之间的标度法则。我们通过在不同领域中的实验展示了该框架的有效性：生产决策中的需求预测、SafetyGym模拟器中的安全强化学习以及保护人工智能聊天机器人输出。通过这些实验，我们证明了我们的方法可以确保满足用户指定的约束的安全性，在低安全门槛区域可显著超越现有方法（在多个数量级上），并且与内部测试数据的数量成有效比例地扩展。