LLM2D

摘要

arXiv:2504.20086v1 类型: cross 摘要: 负责任地开发生成式人工智能（GenAI）产品的关键在于定义接受的输入和输出范围。什么是“安全”的响应是一个备受争议的问题。学术界过度关注通过自身来评估模型的一般方面，如毒性、偏差和公平性，尤其是在广泛受众使用的对话应用程序中。相比之下，很少关注考虑专门领域的社会技术系统。然而，这些专门系统可能会受到广泛理解和高度监管的法律审查。这些产品特定的考虑需要结合特定行业的法律、法规和公司治理要求来进行考虑。在本文中，我们旨在强调金融服务业领域的AI内容安全考虑，并概述一个相关的AI内容风险分类。我们将这种分类与现有工作进行比较，并讨论风险类别违反对各利益相关方的影响。通过评估现有开源技术护栏解决方案在红色团队活动收集的数据上的表现，我们评估了这些护栏如何涵盖这种分类。我们的结果显示，这些护栏无法检测我们讨论的大部分内容风险。