LLM2D

摘要

arXiv:2503.19540v1 安全评估类型: 横向摘要: 近期大型语言模型（LLMs）的进步显著增强了用户与模型之间的交互。这些进步同时强调了需要进行严格的安全评估，因为社会偏见的出现可能导致负面影响。尽管存在这些担忧，现有的基准测试可能忽视了LLMs的核心弱点，即即使是面对简单的对抗性指令，它们也可能生成偏见性回应。为了弥补这一关键缺口，我们引入了一个新的基准测试——极限场景下的LLM公平性基准（FLEX），旨在测试LLMs在面临设计用于诱导偏见的提示时是否能够保持公平性。为了全面评估LLMs的鲁棒性，我们在公平性评估中整合了放大潜在偏见的提示。FLEX与其他现有基准测试的对比实验表明，传统的评估可能低估了模型中的固有风险。这突显了需要更严格的LLM评估基准来确保安全和公平性的必要性。