摘要
arXiv:2502.12485v1 类别: cross
摘要: 为了确保安全使用,大型语言模型(LLMs)通常会与人类定义的价值观进行对齐。然而,这种对齐往往主要依赖于英文数据,并偏向于以西方为中心的价值观,这限制了其在低资源语言环境中的有效性。在本文中,我们描述了将SEA-Lion-v2.1-Instruct(一种Llama3-8B变体)对齐以最小化新加坡英语(Singlish)中的毒性的方法。我们发现,监督微调和成对及非成对偏好上的Kahneman-Tversky优化(KTO)比直接偏好优化(DPO)更具有样本效率,并且能获得显著更好的结果。我们的分析表明,DPO隐式地施加了一个比KTO更弱的安全目标,而SFT通过提高训练稳定性来补充KTO。最后,我们引入了一个简单但新颖的KTO修改版本KTO-S,通过更好地利用梯度来提高训练稳定性。总体而言,我们提出了一种适用于低资源英文语言的安全对齐方法,在我们的Singlish基准上成功减少了99%的毒性,这种收益能够泛化到更广泛的TOXIGEN数据集,并且在标准LLM基准测试中保持强劲的表现。