LLM2D

摘要

arXiv:2504.16120v1 声称类型: cross 摘要：大语言模型（LLM）取得了显著进步，但关于潜在偏见和有害内容的担忧仍然存在。为应对这些担忧，我们提出了一种切实可行的解决方案，以确保LLM的安全和伦理使用。我们的创新方法集中在后生成校正机制——BART-Corrective Model上，该机制调整生成内容以确保安全和安全性。与仅依赖模型微调或提示工程不同，我们的方法提供了一种稳健的数据为中心的替代方案，以减轻有害内容。我们通过在多个有毒数据集上进行实验，展示了我们方法的有效性，结果显示，集成后平均有害性和逃狱分数显著减少。具体来说，我们的结果显示，与GPT-4相比，平均有害性和逃狱分数减少了15%和21%；与PaLM2相比，这两项指标分别减少了28%和5%；与Mistral-7B相比，分别减少了约26%和23%；与Gemma-2b-it相比，分别减少了11.1%和19%。这些结果表明，我们方法的潜力在于提高LLM的安全性和安全性，使它们更适合实际应用。