摘要
arXiv:2504.18536v1 宣布类型: 新
摘要: 现代通用人工智能(AI)系统提出了紧迫的风险管理挑战,因为它们迅速发展的能力和潜在的灾难性危害超出了我们可靠评估其风险的能力。当前的方法通常依赖于选择性测试和对风险优先级的未记录假设,经常未能认真尝试评估AI系统如何直接或间接地对社会和生物圈构成风险的途径集合。本文介绍了AI领域的概率风险评估(PRA)框架,将高可靠性行业(例如,核能、航空)已有的PRA技术应用于先进AI的新挑战。该框架引导评估者识别潜在风险,估计可能性和严重性,并在适当粒度上明确记录证据、基础假设和分析。该框架的实施工具将所有评估风险的综合风险估计综合成一个风险报告卡。这种方法系统地整合了三项进步:(1)面向方面的情景分析提供了一种由AI系统方面(如能力、领域知识、机会)的基本原理分类指导的系统化危害覆盖;(2)风险途径建模通过双向分析和纳入前瞻性技术来分析从系统方面到社会影响的因果链;以及(3)风险管理采用情景分解、参考尺度和明确追踪协议,以结构化有创新性或有限数据的可信预测。此外,该框架通过将各种评估方法整合到可比较的、量化的绝对风险估计中,以供关键决策使用,从而统一了不同的评估方法。我们已经将此作为AI开发人员、评估者和监管者的工作簿工具实现,并在项目网站上提供。