LLM2D

摘要

arXiv:2504.08848v1 类别：交叉学科摘要：大型语言模型（LLMs）已迅速成为众多关键领域应用程序的核心组成部分，可靠性至关重要。尽管在安全框架和护栏方面取得了重大进展，但当前的保护措施在多语言环境中表现出关键的漏洞，尤其是在低资源语言和代码切换技术方面。现有的安全系统仍然容易受到低资源语言的对抗性攻击，以及通过代码切换技巧进行的攻击，主要原因在于它们以英语为中心的设计。此外，由于缺乏多样性的跨语言训练数据，有效多语言护栏的发展受到限制。即使像Llama Guard-3这样的最近解决方案提供了多语言支持，但其决策过程缺乏透明性。我们通过引入X-Guard智能体，一种透明的多语言安全智能体，来应对这些挑战，旨在为多种语言环境下的内容审核提供支持。X-Guard能够有效地抵御传统的低资源语言攻击和复杂的代码切换攻击。我们的方法包括：收集和增强多个开源安全数据集，并明确提供评估标准；采用陪审团制度以减轻单个法官LLM提供者的偏见；创建一个涵盖132种语言、包含500万个数据点的全面多语言安全数据集；以及开发一种结合定制微调mBART-50翻译模块和通过监督微调及GRPO训练的评价X-Guard 3B模型的两阶段架构。实证评估证明，X-Guard在多种语言中检测不当内容的能力有效，并在整个安全评估过程中保持透明度。我们的工作代表了在构建大型语言模型及其集成系统中创建稳健、透明且语言包容的安全系统方面的一个重大进展。