LLM2D

摘要

arXiv:2504.19674v1 安全类型: cross 摘要：大规模语言模型（LLMs）的安全评估取得了进展并引起了学术界的兴趣，但在快速将LLMs集成到各种应用中时，仍面临难以跟上的挑战。不同的应用暴露用户于各种危害，需要针对特定应用的安全评估，配备针对性的危害和政策。另一个主要的缺口是缺乏关注LLM系统的动态和对话性质。这样的潜在疏忽可能导致在标准安全基准中未被注意到的危害。本文识别出上述为稳健的LLM安全评估的关键需求，并鉴于当前的评估方法未能满足这些需求，我们引入了SAGE（Safety AI Generic Evaluation）框架。SAGE是一个自动化模块化框架，旨在进行定制化的和动态的危害评估。它利用了系统感知且具有独特个性的对抗用户模型，使得进行全面的红队评估成为可能。我们通过评估七个最先进的LLM模型在三个应用和危害政策下的表现，展示了SAGE的有效性。我们的多轮对话评估实验揭示了一个令人担忧的发现，即随着对话长度的增加，危害逐渐增加。此外，我们观察到，在暴露于不同用户个性和场景下，模型行为存在显著差异。我们的研究结果还显示，一些模型通过采用极端拒绝策略来减少有害输出，这可能损害其实用性。这些见解突显了适应性和情境特定测试的必要性，以确保在实际场景中更安全地部署LLMs并实现更好的安全性对齐。