LLM2D

摘要

arXiv:2502.04249v1 宣讲类型: 新颖摘要: 我们探讨了自由能量原理作为衡量代理系统和多代理系统中风险基础的可能性。基于这些原则，我们引入了一个累积风险暴露度量标准，该标准在不同情境和需求下具有灵活性。我们将这一方法与依赖大量数据或描述任意复杂世界模型的其他流行的安全AI理论进行了对比。在我们的框架中，利益相关者只需指定其对系统结果的偏好，从而为风险治理和缓解提供简单透明的决策准则。该框架自然地考虑了世界模型和偏好模型中的不确定性，从而使决策具有知识和价值观上的谦逊、简洁，并面向未来。我们通过一个简化了的无人驾驶车辆环境中的多代理车辆示例展示了这一新颖的方法，其中，驾驶策略由充当门卫的实体在线评估各自的邻域中的集体安全风险，并在适当的情况下干预每个车辆的策略。我们证明了即使在无人驾驶车辆车队中低渗透率引入门卫，也能在系统安全性方面产生显著的正外部性。