LLM2D
FalseReject:一种通过结构化推理提高上下文安全性和减轻大语言模型中过度拒绝现象的资源
FalseReject: A Resource for Improving Contextual Safety and Mitigating Over-Refusals in LLMs via Structured Reasoning
作者: Zhehao Zhang, Weijie Xu, Fanyou Wu, Chandan K. Reddy
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.08054v1

摘要

arXiv:2505.08054v1 公告类型: cross 摘要:在大规模语言模型(LLMs)中,安全对齐方法往往会导致对良性查询的过度拒绝,显著降低了它们在敏感场景中的实用性。为了解决这一挑战,我们引入了FalseReject,这是一个包含16,000个看似有毒查询及其在44个安全相关类别中的结构化响应的综合资源。我们提出了一种基于图的信息对抗多智能体交互框架,以生成多样且复杂的提示,并通过明确的推理结构化响应,帮助模型准确区分安全与不安全的上下文。FalseReject包括针对标准指令微调模型和推理导向模型的定制训练数据集,以及一个附有人工标注的基准测试集。我们在29个最先进的(SOTA)LLMs上的广泛基准测试显示了持续存在的过度拒绝挑战。实证结果表明,使用FalseReject的监督微调显著减少了不必要的拒绝,而不会牺牲整体安全或通用语言能力。