LLM2D
什么是有效的评价标准?常见的陷阱与最佳实践
What Makes an Evaluation Useful? Common Pitfalls and Best Practices
作者: Gil Gekker, Meirav Segal, Dan Lahav, Omer Nevo
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23424v1

摘要

arXiv:2503.23424v1 安全评估类型:交叉 摘要:随着近年来人工智能(AI)能力的迅速提升,AI 社区对潜在安全风险表示了担忧。为了支持对AI系统的安全使用和发展的决策,高质量的危险模型能力评估变得越来越重要。尽管已经尝试提供了此类评估,但尚无一致的定义来说明什么是“好的评估”。在本文中,我们基于模型评估的前期工作,通过网络安全领域的示例,提出了一套安全评估的最佳实践。我们首先讨论初始思考过程的步骤,将威胁建模与评估设计联系起来。然后,我们提供使评估有用的特征和参数。最后,我们从构建特定评估到构建完整和综合的评估套件中,讨论了其他注意事项。