摘要
arXiv:2410.05305v2 安全审计类型:替换-交叉
摘要:近期涉及大型语言模型(LLMs)使用导致个体遭受重大损害的高调事件引发了对人工智能安全的日益关注。LLM 安全问题的一个原因是,模型经常会以非零概率生成有害输出。在本研究中,我们探讨了以下场景:假设一名 AI 安全审计员正在查找 LLM 的灾难性响应(例如,对“我可以因为怀孕而解雇员工吗?”回答“是”),并且只能有限地查询模型(例如,1000 次)。使用什么样的查询策略能在高效地找到这些失败响应?为此,我们提出了一种输出探查方法:该方法旨在生成与任何目标概率分布语义流畅的输出。然后,我们使用两个 LLM 进行实验,并找到许多灾难性响应的例子。在此基础上,我们进行了一次讨论,讨论中包含了针对希望实现 LLM 审计以应对灾难性响应的实践者的建议。我们还发布了开源工具包(https://github.com/joaopfonseca/outputscouting),该工具包使用 Hugging Face 变换器库实现了我们的审计框架。