LLM2D
FLEX:评估大型语言模型公平性鲁棒性的基准
FLEX: A Benchmark for Evaluating Robustness of Fairness in Large Language Models
作者: Dahyun Jung, Seungyoon Lee, Hyeonseok Moon, Chanjun Park, Heuiseok Lim
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.19540v1

摘要

arXiv:2503.19540v1 安全评估类型: 横向 摘要: 近期大型语言模型(LLMs)的进步显著增强了用户与模型之间的交互。这些进步同时强调了需要进行严格的安全评估,因为社会偏见的出现可能导致负面影响。尽管存在这些担忧,现有的基准测试可能忽视了LLMs的核心弱点,即即使是面对简单的对抗性指令,它们也可能生成偏见性回应。为了弥补这一关键缺口,我们引入了一个新的基准测试——极限场景下的LLM公平性基准(FLEX),旨在测试LLMs在面临设计用于诱导偏见的提示时是否能够保持公平性。为了全面评估LLMs的鲁棒性,我们在公平性评估中整合了放大潜在偏见的提示。FLEX与其他现有基准测试的对比实验表明,传统的评估可能低估了模型中的固有风险。这突显了需要更严格的LLM评估基准来确保安全和公平性的必要性。