LLM2D

摘要

自动化红队攻击是识别大型语言模型（LLM）中行为偏差的有效方法。然而，现有的方法通常侧重于提高攻击成功率，而忽略了对全面测试用例覆盖的需求。此外，大多数这些方法仅限于单轮红队攻击，无法捕捉现实世界中人机交互的多轮动态。为了克服这些限制，我们提出了 HARM（整体自动化红队攻击），它使用基于可扩展、细粒度风险分类的自上而下方法来扩大测试用例的多样性。我们的方法还利用了一种新颖的微调策略和强化学习技术，以类似人类的方式促进多轮对抗性探测。实验结果表明，我们的框架能够更系统地理解模型漏洞，并为对齐过程提供更有针对性的指导。