摘要
arXiv:2504.16120v1 声称类型: cross
摘要:大语言模型(LLM)取得了显著进步,但关于潜在偏见和有害内容的担忧仍然存在。为应对这些担忧,我们提出了一种切实可行的解决方案,以确保LLM的安全和伦理使用。我们的创新方法集中在后生成校正机制——BART-Corrective Model上,该机制调整生成内容以确保安全和安全性。与仅依赖模型微调或提示工程不同,我们的方法提供了一种稳健的数据为中心的替代方案,以减轻有害内容。我们通过在多个有毒数据集上进行实验,展示了我们方法的有效性,结果显示,集成后平均有害性和逃狱分数显著减少。具体来说,我们的结果显示,与GPT-4相比,平均有害性和逃狱分数减少了15%和21%;与PaLM2相比,这两项指标分别减少了28%和5%;与Mistral-7B相比,分别减少了约26%和23%;与Gemma-2b-it相比,分别减少了11.1%和19%。这些结果表明,我们方法的潜力在于提高LLM的安全性和安全性,使它们更适合实际应用。