LLM2D
填补安全差距:一个信任worthy LLM推断的防护栏流水线
Bridging the Safety Gap: A Guardrail Pipeline for Trustworthy LLM Inferences
作者: Shanshan Han, Salman Avestimehr, Chaoyang He
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.08142v1

摘要

arXiv:2502.08142v1 安全类型: 新闻 摘要: 我们提出了一种名为Wildflare GuardRail的安全护栏流水线,该流水线旨在通过系统地解决整个处理工作流中的风险来增强大型语言模型(LLM)推理的安全性和可靠性。Wildflare GuardRail集成了若干核心功能模块,包括安全检测器,该模块能够在生成模型输出的同时识别不安全的输入并检测幻觉,同时提供根本原因解释;情境化,该模块利用从向量数据库检索到的信息对用户查询进行上下文化;实时调整器,该模块使用轻量级的基于规则的包装器在实时对输出进行调整;以及修复器,该模块利用安全检测器提供的幻觉解释对LLM输出进行修正。结果表明,我们安全检测器中的不安全内容检测模型在性能上与OpenAI API相当,尽管它是在一个由多个公开数据集构建的小规模数据集上训练的。同时,轻量级的包装器可以在每条查询中以100%的准确率在1.06秒内解决模型输出中的恶意URL,而无需昂贵的模型调用。此外,幻觉修复模型在准确率为80.7%的情况下显示出减少幻觉的有效性。