LLM2D
基于自顶向下测试用例生成和多轮交互的 LLM 全面自动化红队测试
Holistic Automated Red Teaming for Large Language Models through Top-Down Test Case Generation and Multi-turn Interaction
作者: Jinchuan Zhang, Yan Zhou, Yaxin Liu, Ziming Li, Songlin Hu
发布日期: 9/26/2024
arXiv ID: oai:arXiv.org:2409.16783v1

摘要

自动化红队攻击是识别大型语言模型(LLM)中行为偏差的有效方法。然而,现有的方法通常侧重于提高攻击成功率,而忽略了对全面测试用例覆盖的需求。此外,大多数这些方法仅限于单轮红队攻击,无法捕捉现实世界中人机交互的多轮动态。为了克服这些限制,我们提出了 HARM(整体自动化红队攻击),它使用基于可扩展、细粒度风险分类的自上而下方法来扩大测试用例的多样性。我们的方法还利用了一种新颖的微调策略和强化学习技术,以类似人类的方式促进多轮对抗性探测。实验结果表明,我们的框架能够更系统地理解模型漏洞,并为对齐过程提供更有针对性的指导。