LLM2D

摘要

arXiv:2502.12485v2 安全声明类型: replace-cross 摘要：在多样的语言环境中确保大型语言模型（LLMs）的安全性仍然颇具挑战性，特别是在低资源语言方面。现有安全对齐方法以英语为中心，限制了它们的有效性。我们系统地比较了监督微调（SFT）、直接偏好优化（DPO）和坎曼-特维斯基优化（KTO）在将SEA-Lion-v2.1-Instruct（一个Llama 3-8B变体）与 Singlish 中的毒性对齐方面的效果。结果显示，SFT+KTO 在减少毒性方面优于DPO，并且具有更高的样本效率。此外，我们引入了KTO-S，通过改进的KL散度正则化增强了稳定性。我们的方法将Singlish的毒性减少了99%，其效果适用于TOXIGEN，并在标准LLM基准测试中保持了强大的性能，提供了一种在多语言环境中安全部署AI的可扩展框架。