LLM2D
安全在边缘:一种低资源英语语言安全性对齐的一般方法——以新加坡英语案例研究为例
Safe at the Margins: A General Approach to Safety Alignment in Low-Resource English Languages -- A Singlish Case Study
作者: Isaac Lim, Shaun Khoo, Watson Chua, Goh Jiayi, Jessica Foo
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12485v1

摘要

arXiv:2502.12485v1 类别: cross 摘要: 为了确保安全使用,大型语言模型(LLMs)通常会与人类定义的价值观进行对齐。然而,这种对齐往往主要依赖于英文数据,并偏向于以西方为中心的价值观,这限制了其在低资源语言环境中的有效性。在本文中,我们描述了将SEA-Lion-v2.1-Instruct(一种Llama3-8B变体)对齐以最小化新加坡英语(Singlish)中的毒性的方法。我们发现,监督微调和成对及非成对偏好上的Kahneman-Tversky优化(KTO)比直接偏好优化(DPO)更具有样本效率,并且能获得显著更好的结果。我们的分析表明,DPO隐式地施加了一个比KTO更弱的安全目标,而SFT通过提高训练稳定性来补充KTO。最后,我们引入了一个简单但新颖的KTO修改版本KTO-S,通过更好地利用梯度来提高训练稳定性。总体而言,我们提出了一种适用于低资源英文语言的安全对齐方法,在我们的Singlish基准上成功减少了99%的毒性,这种收益能够泛化到更广泛的TOXIGEN数据集,并且在标准LLM基准测试中保持强劲的表现。