LLM2D
aiXamine: 简化的大语言模型安全与安全性
aiXamine: Simplified LLM Safety and Security
作者: Fatih Deniz, Dorde Popovic, Yazan Boshmaf, Euisuh Jeong, Minhaj Ahmad, Sanjay Chawla, Issa Khalil
发布日期: 4/24/2025
arXiv ID: oai:arXiv.org:2504.14985v2

摘要

arXiv:2504.14985v2 宣告类型: 替换-交叉 摘要:评估大型语言模型(LLMs)的安全性和安全性仍然是一项复杂任务,通常需要用户在各种临时基准、数据集、度量标准和报告格式的分散景观中导航。为了解决这一挑战,我们提出了aiXamine,一个全面的黑盒评估平台,用于LLM的安全性和安全性评估。aiXamine整合了超过40项测试(即基准),这些测试按八个关键服务组织,针对安全性和安全性中的特定维度进行评估:对抗稳健性、代码安全性、公平性和偏见、幻觉、模型和数据隐私、离分布(OOD)稳健性、过度拒绝以及安全性对齐。该平台将评估结果汇总为每个模型的单个详细报告,提供模型性能的详细分解、测试示例以及丰富的可视化。我们使用aiXamine评估了超过50个公开可用和专有的LLM,进行了超过2000项检查。我们的发现揭示了一些领先模型的重要漏洞,包括OpenAI的GPT-4o对对抗攻击的敏感性、xAI的Grok-3的偏向输出以及Google的Gemini 2.0在隐私方面的弱点。此外,我们观察到开源模型在某些服务领域,如安全性对齐、公平性和偏见以及离分布稳健性,可以达到或超过专有模型的表现。最后,我们确定了不同的蒸馏策略、模型规模、训练方法和架构选择之间的权衡。