摘要
本文提出了一种为大型语言模型 (LLM) 的对抗鲁棒性和监管合规性开发保证案例的方法。我们专注于自然语言和代码语言任务,探讨了这些模型面临的漏洞,包括基于越狱、启发式算法和随机化的对抗性攻击。我们提出了一个分层框架,在 LLM 部署的不同阶段加入护栏,旨在减轻这些攻击并确保遵守欧盟人工智能法案。我们的方法包括一个用于动态风险管理和推理的元层,这对于解决 LLM 漏洞的不断变化的本质至关重要。我们用两个示例保证案例说明了我们的方法,突出了不同的上下文如何需要量身定制的策略来确保鲁棒且合规的人工智能系统。