LLM2D
暗AI:未对齐AI模型不断增长的威胁
Dark LLMs: The Growing Threat of Unaligned AI Models
作者: Michael Fire, Yitzhak Elbazis, Adi Wasenstein, Lior Rokach
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2505.10066v1

摘要

arXiv:2505.10066v1 交叉公告类型: cross 摘要: 大型语言模型(LLMs)迅速重塑现代生活,推进了从医疗保健到教育以及更广泛的多个领域的发展。然而,伴随而来的是一个重大的威胁:这些模型对“越狱”攻击的易感性。LLMs 核心的脆弱性来源于它们学习的数据本身。只要训练数据包含未经筛选、有问题或“暗网”内容,模型就不可避免地会学到不良模式或弱点,从而使用户能够规避其预期的安全控制。我们研究识别了由故意未设伦理护栏或通过“越狱”技术修改而设计的“暗网”LLMs 模型所带来的日益增长的威胁。在我们的研究中,我们发现了一种通用的“越狱”攻击,有效地破坏了多款最先进的模型,使它们能够几乎回答任何问题并在请求时生成有害输出。我们攻击的主要思想在上线超过七个月前就已公布。然而,在测试的许多 LLMs 中,它们仍然对这种攻击易感。尽管我们做出了负责任的披露努力,但主要 LLM 提供商的回应往往不足,凸显了行业在人工智能安全方面存在的令人担忧的差距。随着模型训练变得更加易于获取且价格低廉,并且开源的 LLMs 数量增加,其被广泛滥用的风险也在增加。若不采取果断干预措施,LLMs 可能会继续使危险知识的访问民主化,所带来的风险将超过预期。