摘要
arXiv:2504.10277v1 宣布类型:交叉
摘要:面向消费者的语言模型部署引入了众多风险。虽然现有研究针对此类应用的危害与隐患采用了源自监管框架和理论分析的自上而下的方法,但现实世界失败模式的实际证据仍然未被充分探索。在本文中,我们介绍了RealHarm数据集,该数据集基于对公开报道事件的系统性回顾构建了标注有瑕疵的AI代理交互。从部署者的角度来看,我们分析了这些交互中的危害、原因和隐患,发现声誉损害构成了主要的组织性危害,而错误信息则成为最常见的隐患类别。我们实证评估了最先进的防护栏和内容审核系统,以探讨这些系统是否能防止这些事件发生,揭示了对AI应用保护的显著差距。