LLM2D

摘要

arXiv:2502.08301v1 交叉类型: cross 摘要: 近期对大型语言模型（LLMs）的研究已经展示了它们理解并运用欺骗行为的能力，即使没有明确的提示也是如此。然而，这种行为只在极少数、专门的情况下被观察到，并未显示会对用户构成严重风险。此外，在AI对齐方面的研究已经取得了显著进展，通过训练模型拒绝生成误导性或有毒内容。因此，LLMs 一般变得诚实且无害。在这项研究中，我们介绍了一种新的攻击方法，这种方法损害了这两种特性，揭示了一种可被利用的漏洞，如果被利用，可能会导致严重的现实世界后果。特别地，我们引入了增强欺骗倾向的微调方法，这些“欺骗攻击”将模型定制为在针对选定主题进行提示时愚弄用户，而在其他方面保持准确。此外，我们发现，欺骗模型还会表现出毒性，生成带有仇恨言论、刻板印象和其他有害内容。最后，我们评估了模型在多轮对话中能否一致地欺骗，结果不一。鉴于数百万用户与基于LLM的聊天机器人、语音助手、代理和其他无法确保可信度的界面交互，抵御欺骗攻击以确保这些模型的安全至关重要。