摘要
我们提出了JurEE,一个由高效的仅编码器Transformer模型组成的集成系统,旨在增强基于LLM系统的AI-用户交互中的安全保障。与现有的将LLM作为裁判的方法不同,这些方法通常难以跨风险分类进行泛化,并且只提供文本输出,JurEE提供了一系列普遍风险的概率风险估计。我们的方法利用了多样化的数据源,并采用了渐进式合成数据生成技术,包括LLM辅助增强,以提高模型的鲁棒性和性能。我们创建了一个内部基准,包括OpenAI Moderation Dataset和ToxicChat等其他信誉良好的基准,发现JurEE在基线模型方面表现出明显优势,证明了其更高的准确性、速度和成本效益。这使得它特别适合需要严格内容审核的应用程序,例如面向客户的聊天机器人。编码器集成的模块化设计允许用户设置定制的风险阈值,增强其在各种安全相关应用程序中的通用性。JurEE的集体决策过程,其中每个专门的编码器模型都对最终输出做出贡献,不仅提高了预测精度,而且还增强了可解释性。这种方法为需要强大的内容审核的大规模实施提供了比传统LLM更有效、性能更高、更经济的替代方案。