摘要
arXiv:2502.12485v2 安全声明类型: replace-cross
摘要:在多样的语言环境中确保大型语言模型(LLMs)的安全性仍然颇具挑战性,特别是在低资源语言方面。现有安全对齐方法以英语为中心,限制了它们的有效性。我们系统地比较了监督微调(SFT)、直接偏好优化(DPO)和坎曼-特维斯基优化(KTO)在将SEA-Lion-v2.1-Instruct(一个Llama 3-8B变体)与 Singlish 中的毒性对齐方面的效果。结果显示,SFT+KTO 在减少毒性方面优于DPO,并且具有更高的样本效率。此外,我们引入了KTO-S,通过改进的KL散度正则化增强了稳定性。我们的方法将Singlish的毒性减少了99%,其效果适用于TOXIGEN,并在标准LLM基准测试中保持了强大的性能,提供了一种在多语言环境中安全部署AI的可扩展框架。