LLM2D

摘要

arXiv:2505.10066v1 交叉公告类型: cross 摘要: 大型语言模型（LLMs）迅速重塑现代生活，推进了从医疗保健到教育以及更广泛的多个领域的发展。然而，伴随而来的是一个重大的威胁：这些模型对“越狱”攻击的易感性。LLMs 核心的脆弱性来源于它们学习的数据本身。只要训练数据包含未经筛选、有问题或“暗网”内容，模型就不可避免地会学到不良模式或弱点，从而使用户能够规避其预期的安全控制。我们研究识别了由故意未设伦理护栏或通过“越狱”技术修改而设计的“暗网”LLMs 模型所带来的日益增长的威胁。在我们的研究中，我们发现了一种通用的“越狱”攻击，有效地破坏了多款最先进的模型，使它们能够几乎回答任何问题并在请求时生成有害输出。我们攻击的主要思想在上线超过七个月前就已公布。然而，在测试的许多 LLMs 中，它们仍然对这种攻击易感。尽管我们做出了负责任的披露努力，但主要 LLM 提供商的回应往往不足，凸显了行业在人工智能安全方面存在的令人担忧的差距。随着模型训练变得更加易于获取且价格低廉，并且开源的 LLMs 数量增加，其被广泛滥用的风险也在增加。若不采取果断干预措施，LLMs 可能会继续使危险知识的访问民主化，所带来的风险将超过预期。