摘要
arXiv:2504.14985v1 安全类型:跨域
摘要:评估大型语言模型(LLMs)的安全性和安全性仍然是一项复杂的任务,通常需要用户导航一个由随意基准、数据集、度量标准和报告格式组成的碎片化景观。为了解决这一挑战,我们介绍了aiXamine,这是一个全面的黑盒评估平台,用于LLM的安全性和安全性评估。aiXamine整合了超过40项测试(即基准),这些测试组织成八个关键服务,针对安全性和安全性中的特定维度:对抗性稳健性、代码安全、公平性和偏差、幻觉、模型和数据隐私、离分布稳健性、过度拒绝以及安全性对齐。该平台将评估结果整合成每个模型的单个详细报告,提供模型性能的详细分解、测试示例和丰富的可视化。我们使用aiXamine评估了超过50个公共和专有的LLM,进行了超过2000次检查。我们的发现揭示了领先模型的显着漏洞,包括OpenAI的GPT-4o对对抗性攻击的敏感性、xAI的Grok-3的偏向输出以及Google的Gemini 2.0的隐私弱点。此外,我们观察到开源模型在特定服务如安全性对齐、公平性和偏差以及离分布稳健性上可以匹配或超过专有模型。最后,我们确定了蒸馏策略、模型大小、训练方法和架构选择之间的权衡。