LLM2D

摘要

arXiv:2505.04146v1 宣告类型: cross 摘要：现有的大型语言模型（LLMs）在图像生成任务中取得了迅速的进步，并且在这些任务中展示了卓越的结果，然而它们的内容安全性检查仍然容易受到基于提示的破解攻击的影响。通过在ChatGPT、MetaAI和Grok等平台上进行初步测试，我们发现即使是简短的自然提示也可能导致生成具有潜在风险的图像，这些图像从伪造文件的逼真描述到公众人物的操纵图像不等。我们介绍了揭露画布（UTC Benchmark；UTCB），这是一个动态和可扩展的基准数据集，用于评估LLM在图像生成中的漏洞。我们的方法结合了结构化提示工程、多语言混淆（例如Zulu、Gaelic、Base64）以及使用Groq托管的LLaMA-3进行评估。管道支持零样本和后退提示策略、风险评分和自动标记。所有生成的内容都保存了丰富的元数据，并被整理成青铜（未验证）、白银（LLM辅助验证）和黄金（手动验证）三个等级。UTCB设计用于随着时间的推移而不断发展，新增数据源、提示模板和模型行为。警告：本文包含用于测试模型安全性的对抗性输入示例。所有输出均已屏蔽，以确保负责任的披露。