LLM2D

摘要

arXiv:2504.12082v1 宣传类型：交叉摘要：仇恨言论检测是自然语言处理领域一个至关重要的研究领域，对于确保在线社区的安全至关重要。然而，对于隐含的仇恨言论检测——其中有害意图以微妙或间接的方式传达——仍然是一个主要挑战。与明确的仇恨言论不同，隐含的表达往往依赖于上下文、文化细微之处和隐藏的偏见，这使得它们更难以一致地识别。此外，此类言论的解释受到外部知识和人口统计学偏见的影响，导致不同的语言模型在检测结果上存在差异。此外，大型语言模型往往对有毒语言和对脆弱群体的提及显示出高度敏感性，这可能导致错误分类。这种过度敏感性导致了假阳性（错误地将无害的陈述识别为仇恨言论）和假阴性（未能检测到真正有害的内容）。要解决这些问题，需要不仅提高检测精度，还能减少模型偏见并增强鲁棒性的方法。为了应对这些挑战，我们提出了一种新方法，该方法利用上下文学习，无需对模型进行微调。通过适应性地检索专注于类似群体或具有最高相似度评分的示例，我们的方法增强了上下文理解。实验结果显示，我们的方法在当前最先进的技术中表现出色。详细的实现细节和代码可参见 TBD。