LLM2D
PyRIT:生成式人工智能系统安全风险识别与红队测试框架
PyRIT: A Framework for Security Risk Identification and Red Teaming in Generative AI System
作者: Gary D. Lopez Munoz, Amanda J. Minnich, Roman Lutz, Richard Lundeen, Raja Sekhar Rao Dheekonda, Nina Chikanov, Bolor-Erdene Jagdagdorj, Martin Pouliot, Shiven Chawla, Whitney Maxwell, Blake Bullwinkel, Katherine Pratt, Joris de Gruyter, Charlotte Siska, Pete Bryan, Tori Westerhoff, Chang Kawaguchi, Christian Seifert, Ram Shankar Siva Kumar, Yonatan Zunger
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.02828v1

摘要

生成式人工智能(GenAI)正日益融入我们的日常生活。计算能力和数据可用性的提升导致了单模态和多模态模型的激增。随着 GenAI 生态系统的成熟,对可扩展且模型无关的风险识别框架的需求日益增长。为了满足这一需求,我们引入了 Python 风险识别工具包 (PyRIT),这是一个开源框架,旨在增强 GenAI 系统中的红队行动。PyRIT 是一种模型和平台无关的工具,使红队人员能够探测和识别多模态生成式 AI 模型中的新型危害、风险和越狱行为。其可组合的架构促进了核心构建块的重复使用,并允许扩展到未来的模型和模态。本文详细介绍了针对生成式 AI 系统红队行动的具体挑战、PyRIT 的开发和功能,以及其在现实世界场景中的实际应用。