LLM2D
SAGE: 一个通用的大型语言模型安全性评估框架
$\texttt{SAGE}$: A Generic Framework for LLM Safety Evaluation
作者: Madhur Jindal, Hari Shrawgi, Parag Agrawal, Sandipan Dandapat
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.19674v1

摘要

arXiv:2504.19674v1 安全类型: cross 摘要:大规模语言模型(LLMs)的安全评估取得了进展并引起了学术界的兴趣,但在快速将LLMs集成到各种应用中时,仍面临难以跟上的挑战。不同的应用暴露用户于各种危害,需要针对特定应用的安全评估,配备针对性的危害和政策。另一个主要的缺口是缺乏关注LLM系统的动态和对话性质。这样的潜在疏忽可能导致在标准安全基准中未被注意到的危害。本文识别出上述为稳健的LLM安全评估的关键需求,并鉴于当前的评估方法未能满足这些需求,我们引入了SAGE(Safety AI Generic Evaluation)框架。SAGE是一个自动化模块化框架,旨在进行定制化的和动态的危害评估。它利用了系统感知且具有独特个性的对抗用户模型,使得进行全面的红队评估成为可能。我们通过评估七个最先进的LLM模型在三个应用和危害政策下的表现,展示了SAGE的有效性。我们的多轮对话评估实验揭示了一个令人担忧的发现,即随着对话长度的增加,危害逐渐增加。此外,我们观察到,在暴露于不同用户个性和场景下,模型行为存在显著差异。我们的研究结果还显示,一些模型通过采用极端拒绝策略来减少有害输出,这可能损害其实用性。这些见解突显了适应性和情境特定测试的必要性,以确保在实际场景中更安全地部署LLMs并实现更好的安全性对齐。