LLM2D
X-Guard:多语言守门人代理用于内容审核
X-Guard: Multilingual Guard Agent for Content Moderation
作者: Bibek Upadhayay, Vahid Behzadan, Ph. D
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.08848v1

摘要

arXiv:2504.08848v1 类别:交叉学科 摘要:大型语言模型(LLMs)已迅速成为众多关键领域应用程序的核心组成部分,可靠性至关重要。尽管在安全框架和护栏方面取得了重大进展,但当前的保护措施在多语言环境中表现出关键的漏洞,尤其是在低资源语言和代码切换技术方面。现有的安全系统仍然容易受到低资源语言的对抗性攻击,以及通过代码切换技巧进行的攻击,主要原因在于它们以英语为中心的设计。此外,由于缺乏多样性的跨语言训练数据,有效多语言护栏的发展受到限制。即使像Llama Guard-3这样的最近解决方案提供了多语言支持,但其决策过程缺乏透明性。我们通过引入X-Guard智能体,一种透明的多语言安全智能体,来应对这些挑战,旨在为多种语言环境下的内容审核提供支持。X-Guard能够有效地抵御传统的低资源语言攻击和复杂的代码切换攻击。我们的方法包括:收集和增强多个开源安全数据集,并明确提供评估标准;采用陪审团制度以减轻单个法官LLM提供者的偏见;创建一个涵盖132种语言、包含500万个数据点的全面多语言安全数据集;以及开发一种结合定制微调mBART-50翻译模块和通过监督微调及GRPO训练的评价X-Guard 3B模型的两阶段架构。实证评估证明,X-Guard在多种语言中检测不当内容的能力有效,并在整个安全评估过程中保持透明度。我们的工作代表了在构建大型语言模型及其集成系统中创建稳健、透明且语言包容的安全系统方面的一个重大进展。