摘要
arXiv:2502.01633v1 交叉发布类型: cross
摘要: 随着大型语言模型(LLMs)变得越来越强大且普及,对其失效案例的研究变得越来越重要。标准测试时间计算的标准化、测量和扩展进步提示了优化模型以在困难任务上实现高性能的新方法。在本文中,我们将这些进步应用于模型狱破任务:从对齐的LLMs中引出有害反应。我们开发了一种对抗推理方法,通过测试时计算实现对许多对齐的LLMs的SOTA攻击成功率(ASR),即使是对那些旨在用推理时间计算换取对抗鲁棒性以进行权衡的LLMs也是如此。我们的方法引入了一种新的理解LLM脆弱性的范式,为开发更 robust 和可信赖的AI系统奠定了基础。