LLM2D

摘要

arXiv:2505.06409v1 安全公告类型：跨领域摘要：随着AI模型参数规模达到数十亿，并且在不断增加的自主性下运行，确保其安全可靠的运行要求具备工程级的安全性和保证框架。本文提出了一个针对大规模自主AI系统的具有风险意识的设计安全方法，在开发生命周期的每个阶段都整合了标准化的威胁度量、对抗性加固技术和实时异常检测。我们详细描述了一个统一的工作流程 - 从设计时的风险评估和安全训练协议，到持续监控和自动审计日志记录 - 提供了在对抗性和运行压力下模型行为的可证明保证。在国家安全、开源模型治理和工业自动化方面的案例研究显示了可量化的漏洞和合规性负担减少。最后，我们主张跨行业的合作 - 将工程团队、标准机构和监管机构团结起来，在具有韧性的端到端保证生态系统中实施这些技术保障，为下一代AI提供担保。