摘要
arXiv:2503.05731v2 通知类型: 替换-交叉
摘要:AI系统快速的发展和部署迫切需要标准的安全评估框架。本文介绍了AILuminate v1.0,这是首个全面的行业标准基准,用于评估AI产品的风险和可靠性。其开发采用了开放流程,包括来自多个领域的参与者。该基准评估了AI系统在12种危险类别中的抗辩能力,包括暴力犯罪、非暴力犯罪、性犯罪、儿童性剥削、无差别武器、自杀和自伤、知识产权、隐私、诽谤、仇恨言论、色情内容以及专门建议(选举、财务、健康、法律)。我们的方法包括完整的评估标准、广泛的提示数据集、创新的评估框架、评分和报告系统,以及长期支持和演进的技术及组织基础设施。特别地,基准采用了易于理解的五级评分体系(较差到优秀),并结合了基于熵的系统响应评估的创新系统。
此外,本报告还指出了我们方法及其建立安全基准的局限性,包括评估者的不确定性以及单轮交互的限制。本工作代表了建立全球AI风险和可靠性评估标准的关键一步,同时也承认了在多轮交互、多模态理解、其他语言覆盖率以及新兴危险类别等方面的持续开发需求。我们的 findings 为模型开发者、系统集成商和政策制定者提供了宝贵的见解,帮助促进更安全的AI部署。