LLM2D

摘要

arXiv:2501.18628v1 Announce Type: 跨越摘要：本文介绍了Indiana Jones，这是一种创新的利用模型间对话和关键词驱动提示来破解大型语言模型（LLMs）的方法。通过协调三个专门化LLM之间的交互，该方法在白盒和黑盒LLMs中通过内容保护措施方面取得了近乎完美的成功率。该研究揭示了当代模型中的系统性漏洞，特别是这些模型在受历史或上下文框架下的看似无害提示引导下产生有害或不道德输出的易感性。实验评估突显了Indiana Jones的有效性和适应性，并证明其在现有破解方法中的优越性。这些发现强调了对大型语言模型开发过程中增强伦理保护和 robust 安全措施的紧迫需求。此外，这项工作为未来旨在强化LLMs对抗恶意利用的研究奠定了关键基础，同时保留了它们的实用性和灵活性。