LLM2D
安全在边缘:一种低资源英语语言中安全对齐的一般方法——以闽南方言英语(Singlish)案例研究为例
Safe at the Margins: A General Approach to Safety Alignment in Low-Resource English Languages -- A Singlish Case Study
作者: Isaac Lim, Shaun Khoo, Roy Ka-Wei Lee, Watson Chua, Jia Yi Goh, Jessica Foo
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2502.12485v2

摘要

arXiv:2502.12485v2 安全声明类型: replace-cross 摘要:在多样的语言环境中确保大型语言模型(LLMs)的安全性仍然颇具挑战性,特别是在低资源语言方面。现有安全对齐方法以英语为中心,限制了它们的有效性。我们系统地比较了监督微调(SFT)、直接偏好优化(DPO)和坎曼-特维斯基优化(KTO)在将SEA-Lion-v2.1-Instruct(一个Llama 3-8B变体)与 Singlish 中的毒性对齐方面的效果。结果显示,SFT+KTO 在减少毒性方面优于DPO,并且具有更高的样本效率。此外,我们引入了KTO-S,通过改进的KL散度正则化增强了稳定性。我们的方法将Singlish的毒性减少了99%,其效果适用于TOXIGEN,并在标准LLM基准测试中保持了强大的性能,提供了一种在多语言环境中安全部署AI的可扩展框架。