摘要
arXiv:2502.08301v1 交叉类型: cross
摘要: 近期对大型语言模型(LLMs)的研究已经展示了它们理解并运用欺骗行为的能力,即使没有明确的提示也是如此。然而,这种行为只在极少数、专门的情况下被观察到,并未显示会对用户构成严重风险。此外,在AI对齐方面的研究已经取得了显著进展,通过训练模型拒绝生成误导性或有毒内容。因此,LLMs 一般变得诚实且无害。在这项研究中,我们介绍了一种新的攻击方法,这种方法损害了这两种特性,揭示了一种可被利用的漏洞,如果被利用,可能会导致严重的现实世界后果。特别地,我们引入了增强欺骗倾向的微调方法,这些“欺骗攻击”将模型定制为在针对选定主题进行提示时愚弄用户,而在其他方面保持准确。此外,我们发现,欺骗模型还会表现出毒性,生成带有仇恨言论、刻板印象和其他有害内容。最后,我们评估了模型在多轮对话中能否一致地欺骗,结果不一。鉴于数百万用户与基于LLM的聊天机器人、语音助手、代理和其他无法确保可信度的界面交互,抵御欺骗攻击以确保这些模型的安全至关重要。