LLM2D
Soteria:针对多语言安全对齐的语言特定功能性参数调控
Soteria: Language-Specific Functional Parameter Steering for Multilingual Safety Alignment
作者: Somnath Banerjee, Sayan Layek, Pratyush Chatterjee, Animesh Mukherjee, Rima Hazra
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11244v1

摘要

arXiv:2502.11244v1 安全策略类型:交叉 摘要:确保多语言环境下的安全一致性仍然是大型语言模型(LLMs)面临的重大挑战。我们介绍了Soteria,这是一个轻量级但强大的策略,它能够定位并最小化每个语言中最负责生成有害内容的“功能头”。通过仅调整参数的 fraction 部分,Soteria 使政策违规大幅减少,而不牺牲整体模型性能,即使在资源有限的环境中也是如此。为了严格评估我们的方法,我们还提出了XThreatBench,这是一个专门的多语言数据集,它捕捉了从实际政策指南中汲取的细化的有害行为。使用领先的开源LLMs(例如 Llama、Qwen、Mistral)的实验表明,Soteria 在高资源、中资源和低资源语言中一致地提高了安全指标。这些发现指出了朝着可扩展、语言适应性以及伦理对齐的LLMs全球发展路径的有希望的道路。