LLM2D

摘要

我们提出了JurEE，一个由高效的仅编码器Transformer模型组成的集成系统，旨在增强基于LLM系统的AI-用户交互中的安全保障。与现有的将LLM作为裁判的方法不同，这些方法通常难以跨风险分类进行泛化，并且只提供文本输出，JurEE提供了一系列普遍风险的概率风险估计。我们的方法利用了多样化的数据源，并采用了渐进式合成数据生成技术，包括LLM辅助增强，以提高模型的鲁棒性和性能。我们创建了一个内部基准，包括OpenAI Moderation Dataset和ToxicChat等其他信誉良好的基准，发现JurEE在基线模型方面表现出明显优势，证明了其更高的准确性、速度和成本效益。这使得它特别适合需要严格内容审核的应用程序，例如面向客户的聊天机器人。编码器集成的模块化设计允许用户设置定制的风险阈值，增强其在各种安全相关应用程序中的通用性。JurEE的集体决策过程，其中每个专门的编码器模型都对最终输出做出贡献，不仅提高了预测精度，而且还增强了可解释性。这种方法为需要强大的内容审核的大规模实施提供了比传统LLM更有效、性能更高、更经济的替代方案。