LLM2D

摘要

arXiv:2502.11244v1 安全策略类型：交叉摘要：确保多语言环境下的安全一致性仍然是大型语言模型（LLMs）面临的重大挑战。我们介绍了Soteria，这是一个轻量级但强大的策略，它能够定位并最小化每个语言中最负责生成有害内容的“功能头”。通过仅调整参数的 fraction 部分，Soteria 使政策违规大幅减少，而不牺牲整体模型性能，即使在资源有限的环境中也是如此。为了严格评估我们的方法，我们还提出了XThreatBench，这是一个专门的多语言数据集，它捕捉了从实际政策指南中汲取的细化的有害行为。使用领先的开源LLMs（例如 Llama、Qwen、Mistral）的实验表明，Soteria 在高资源、中资源和低资源语言中一致地提高了安全指标。这些发现指出了朝着可扩展、语言适应性以及伦理对齐的LLMs全球发展路径的有希望的道路。