LLM2D

摘要

arXiv:2412.04942v2 宣告类型: replace-cross 摘要：在线仇恨言论仍然是边缘化社区的一个研究不足的问题，特别是对于包括互联网普及率不断提高的发展中社会在内的全球南方地区。本文旨在为以低资源语言为主要语言的社会中的边缘化社区提供一种隐私保护工具，以便他们能够过滤其母语中的不恰当内容，从而保护自己免受在线仇恨言论的影响。我们的贡献主要有两点：1）我们发布了 REACT（针对不同语境的响应仇恨言论数据集），这是一个包含多个目标群体和低资源语言的高质量、文化特定的仇恨言论检测数据集，由经验丰富的数据收集者精心收集；2）我们提出了一种基于联邦学习（FL）的少量样本仇恨言论检测方法，这是一种隐私保护的方法，通过在不同目标群体和语言上协作训练中心模型来应对各种挑战。通过在用户设备上保持训练的本地化，我们确保了数据隐私的同时充分利用了FL的集体学习优势。此外，我们还探索了针对特定目标群体进行个性化客户端模型，并对其性能进行了评估。我们的研究表明，FL在不同目标群体中具有整体有效性，并指出个性化作为一种有前景的方向。