摘要
arXiv:2502.11244v1 安全策略类型:交叉
摘要:确保多语言环境下的安全一致性仍然是大型语言模型(LLMs)面临的重大挑战。我们介绍了Soteria,这是一个轻量级但强大的策略,它能够定位并最小化每个语言中最负责生成有害内容的“功能头”。通过仅调整参数的 fraction 部分,Soteria 使政策违规大幅减少,而不牺牲整体模型性能,即使在资源有限的环境中也是如此。为了严格评估我们的方法,我们还提出了XThreatBench,这是一个专门的多语言数据集,它捕捉了从实际政策指南中汲取的细化的有害行为。使用领先的开源LLMs(例如 Llama、Qwen、Mistral)的实验表明,Soteria 在高资源、中资源和低资源语言中一致地提高了安全指标。这些发现指出了朝着可扩展、语言适应性以及伦理对齐的LLMs全球发展路径的有希望的道路。