LLM2D

摘要

arXiv:2503.23424v1 安全评估类型：交叉摘要：随着近年来人工智能（AI）能力的迅速提升，AI 社区对潜在安全风险表示了担忧。为了支持对AI系统的安全使用和发展的决策，高质量的危险模型能力评估变得越来越重要。尽管已经尝试提供了此类评估，但尚无一致的定义来说明什么是“好的评估”。在本文中，我们基于模型评估的前期工作，通过网络安全领域的示例，提出了一套安全评估的最佳实践。我们首先讨论初始思考过程的步骤，将威胁建模与评估设计联系起来。然后，我们提供使评估有用的特征和参数。最后，我们从构建特定评估到构建完整和综合的评估套件中，讨论了其他注意事项。