LLM2D

摘要

arXiv:2505.08054v1 公告类型: cross 摘要：在大规模语言模型（LLMs）中，安全对齐方法往往会导致对良性查询的过度拒绝，显著降低了它们在敏感场景中的实用性。为了解决这一挑战，我们引入了FalseReject，这是一个包含16,000个看似有毒查询及其在44个安全相关类别中的结构化响应的综合资源。我们提出了一种基于图的信息对抗多智能体交互框架，以生成多样且复杂的提示，并通过明确的推理结构化响应，帮助模型准确区分安全与不安全的上下文。FalseReject包括针对标准指令微调模型和推理导向模型的定制训练数据集，以及一个附有人工标注的基准测试集。我们在29个最先进的（SOTA）LLMs上的广泛基准测试显示了持续存在的过度拒绝挑战。实证结果表明，使用FalseReject的监督微调显著减少了不必要的拒绝，而不会牺牲整体安全或通用语言能力。