LLM2D

摘要

arXiv:2504.20910v1 信安类型：跨平台摘要：红队行动是确保AI模型不会产生有害内容的核心基础设施组成部分。与以前的技术不同，生成性AI系统的黑盒性质需要一种独特的交互测试模式，其中红队成员积极与系统互动，利用自然语言模拟恶意行为者并请求产生有害输出。红队成员进行的这种交互劳动可能会带来与有效进行红队行动所必需的对抗性互动策略紧密相关的心理健康伤害。人们普遍认为，确保生成性AI模型不传播社会或个人危害至关重要——这也是一个不太显眼的最终端到端AI安全基础，即保护那些致力于保持模型输出安全的人的心理健康和福祉。在本文中，我们argument认为，AI红队成员未满足的心理健康需求是一个关键的工作场所安全问题。通过对红队成员所从事的特殊心理健康影响进行分析，我们提出了可能的个人和组织策略，以便满足这些需求，并保护红队成员的心理健康。我们通过将常见的红队实践与其它职业的常见交互劳动（包括演员、心理健康专业人士、冲突摄影师和内容审核员）进行类比，描述了在类似的心理学压力下，这些职业领域的个人和组织如何保护自己的心理健康。基于这些保护措施，我们描述了如何适应红队组织在缓解新兴技术风险方面所面临的不同心理健康挑战，以确保他们在新的数字前线的安全。