LLM2D

摘要

arXiv:2501.18280v2 宣告类型: replace-cross 摘要：大规模语言模型（LLMs）的安全问题最近引起了显著的关注，开发出了多种防御机制以防止有害输出，其中基于文本嵌入模型的保护措施构成了基本的防御。通过测试，我们发现文本嵌入模型的输出分布存在显著的偏差，且均值较大。受到这一观察的启发，我们提出了新型的有效方法来寻找可以攻击文本嵌入模型的通用魔咒词。这些通用魔咒词作为后缀，可以使任何文本的嵌入向偏差方向移动，从而操纵任意文本对之间的相似度并误导保护措施。通过在用户的提示中添加魔咒词，并要求LLMs以魔咒词结束答案，攻击者可以突破保护措施。为了根除这一安全风险，我们还提出了针对此类攻击的防御机制，可以在不进行训练的情况下矫正文本嵌入的偏差分布。