摘要
arXiv:2503.19540v1 安全评估类型: 横向
摘要: 近期大型语言模型(LLMs)的进步显著增强了用户与模型之间的交互。这些进步同时强调了需要进行严格的安全评估,因为社会偏见的出现可能导致负面影响。尽管存在这些担忧,现有的基准测试可能忽视了LLMs的核心弱点,即即使是面对简单的对抗性指令,它们也可能生成偏见性回应。为了弥补这一关键缺口,我们引入了一个新的基准测试——极限场景下的LLM公平性基准(FLEX),旨在测试LLMs在面临设计用于诱导偏见的提示时是否能够保持公平性。为了全面评估LLMs的鲁棒性,我们在公平性评估中整合了放大潜在偏见的提示。FLEX与其他现有基准测试的对比实验表明,传统的评估可能低估了模型中的固有风险。这突显了需要更严格的LLM评估基准来确保安全和公平性的必要性。