LLM2D

摘要

arXiv:2502.12485v1 类别: cross 摘要: 为了确保安全使用，大型语言模型（LLMs）通常会与人类定义的价值观进行对齐。然而，这种对齐往往主要依赖于英文数据，并偏向于以西方为中心的价值观，这限制了其在低资源语言环境中的有效性。在本文中，我们描述了将SEA-Lion-v2.1-Instruct（一种Llama3-8B变体）对齐以最小化新加坡英语（Singlish）中的毒性的方法。我们发现，监督微调和成对及非成对偏好上的Kahneman-Tversky优化（KTO）比直接偏好优化（DPO）更具有样本效率，并且能获得显著更好的结果。我们的分析表明，DPO隐式地施加了一个比KTO更弱的安全目标，而SFT通过提高训练稳定性来补充KTO。最后，我们引入了一个简单但新颖的KTO修改版本KTO-S，通过更好地利用梯度来提高训练稳定性。总体而言，我们提出了一种适用于低资源英文语言的安全对齐方法，在我们的Singlish基准上成功减少了99%的毒性，这种收益能够泛化到更广泛的TOXIGEN数据集，并且在标准LLM基准测试中保持强劲的表现。