LLM2D

摘要

arXiv:2504.14985v2 宣告类型: 替换-交叉摘要：评估大型语言模型（LLMs）的安全性和安全性仍然是一项复杂任务，通常需要用户在各种临时基准、数据集、度量标准和报告格式的分散景观中导航。为了解决这一挑战，我们提出了aiXamine，一个全面的黑盒评估平台，用于LLM的安全性和安全性评估。aiXamine整合了超过40项测试（即基准），这些测试按八个关键服务组织，针对安全性和安全性中的特定维度进行评估：对抗稳健性、代码安全性、公平性和偏见、幻觉、模型和数据隐私、离分布（OOD）稳健性、过度拒绝以及安全性对齐。该平台将评估结果汇总为每个模型的单个详细报告，提供模型性能的详细分解、测试示例以及丰富的可视化。我们使用aiXamine评估了超过50个公开可用和专有的LLM，进行了超过2000项检查。我们的发现揭示了一些领先模型的重要漏洞，包括OpenAI的GPT-4o对对抗攻击的敏感性、xAI的Grok-3的偏向输出以及Google的Gemini 2.0在隐私方面的弱点。此外，我们观察到开源模型在某些服务领域，如安全性对齐、公平性和偏见以及离分布稳健性，可以达到或超过专有模型的表现。最后，我们确定了不同的蒸馏策略、模型规模、训练方法和架构选择之间的权衡。