LLM2D

摘要

生成式人工智能（GenAI）正日益融入我们的日常生活。计算能力和数据可用性的提升导致了单模态和多模态模型的激增。随着 GenAI 生态系统的成熟，对可扩展且模型无关的风险识别框架的需求日益增长。为了满足这一需求，我们引入了 Python 风险识别工具包 (PyRIT)，这是一个开源框架，旨在增强 GenAI 系统中的红队行动。PyRIT 是一种模型和平台无关的工具，使红队人员能够探测和识别多模态生成式 AI 模型中的新型危害、风险和越狱行为。其可组合的架构促进了核心构建块的重复使用，并允许扩展到未来的模型和模态。本文详细介绍了针对生成式 AI 系统红队行动的具体挑战、PyRIT 的开发和功能，以及其在现实世界场景中的实际应用。