LLM2D
以数据为中心的方法,用于防止大型语言模型生成威胁性和有毒内容的安全与安全措施
A Data-Centric Approach for Safe and Secure Large Language Models against Threatening and Toxic Content
作者: Chaima Njeh, Ha\"ifa Nakouri, Fehmi Jaafar
发布日期: 4/24/2025
arXiv ID: oai:arXiv.org:2504.16120v1

摘要

arXiv:2504.16120v1 声称类型: cross 摘要:大语言模型(LLM)取得了显著进步,但关于潜在偏见和有害内容的担忧仍然存在。为应对这些担忧,我们提出了一种切实可行的解决方案,以确保LLM的安全和伦理使用。我们的创新方法集中在后生成校正机制——BART-Corrective Model上,该机制调整生成内容以确保安全和安全性。与仅依赖模型微调或提示工程不同,我们的方法提供了一种稳健的数据为中心的替代方案,以减轻有害内容。我们通过在多个有毒数据集上进行实验,展示了我们方法的有效性,结果显示,集成后平均有害性和逃狱分数显著减少。具体来说,我们的结果显示,与GPT-4相比,平均有害性和逃狱分数减少了15%和21%;与PaLM2相比,这两项指标分别减少了28%和5%;与Mistral-7B相比,分别减少了约26%和23%;与Gemma-2b-it相比,分别减少了11.1%和19%。这些结果表明,我们方法的潜力在于提高LLM的安全性和安全性,使它们更适合实际应用。