LLM2D

摘要

arXiv:2504.14985v1 安全类型：跨域摘要：评估大型语言模型（LLMs）的安全性和安全性仍然是一项复杂的任务，通常需要用户导航一个由随意基准、数据集、度量标准和报告格式组成的碎片化景观。为了解决这一挑战，我们介绍了aiXamine，这是一个全面的黑盒评估平台，用于LLM的安全性和安全性评估。aiXamine整合了超过40项测试（即基准），这些测试组织成八个关键服务，针对安全性和安全性中的特定维度：对抗性稳健性、代码安全、公平性和偏差、幻觉、模型和数据隐私、离分布稳健性、过度拒绝以及安全性对齐。该平台将评估结果整合成每个模型的单个详细报告，提供模型性能的详细分解、测试示例和丰富的可视化。我们使用aiXamine评估了超过50个公共和专有的LLM，进行了超过2000次检查。我们的发现揭示了领先模型的显着漏洞，包括OpenAI的GPT-4o对对抗性攻击的敏感性、xAI的Grok-3的偏向输出以及Google的Gemini 2.0的隐私弱点。此外，我们观察到开源模型在特定服务如安全性对齐、公平性和偏差以及离分布稳健性上可以匹配或超过专有模型。最后，我们确定了蒸馏策略、模型大小、训练方法和架构选择之间的权衡。