摘要
大规模仇恨言论、骚扰、有害和色情内容以及暴力内容在网站和媒体平台上的广泛传播,带来了巨大的挑战,并引起社会各界的广泛关注。政府、教育工作者和家长经常与媒体平台就如何规范、控制和限制此类内容的传播存在分歧。用于检测和审查媒体内容的技术是解决这些挑战的关键方案。自然语言处理和计算机视觉技术已被广泛用于自动识别和过滤文本、图像和视频中的敏感内容,例如攻击性语言、暴力、裸露和成瘾内容,使平台能够大规模执行内容策略。然而,现有方法在以较少的误报和漏报实现高检测精度方面仍然存在局限性。因此,更复杂的算法来理解文本和图像的上下文,可能会为改进内容审查、构建更有效的审查系统打开空间。本文评估了现有的基于大型语言模型 (LLM) 的内容审核解决方案,例如 OpenAI 审核模型和 Llama-Guard3,并研究了它们检测敏感内容的能力。此外,我们探索了 GPT、Gemini 和 Llama 等最新的 LLM 在识别媒体渠道中不当内容方面的能力。我们使用了各种文本和视觉数据集,例如 X 推文、亚马逊评论、新闻文章、人物照片、漫画、素描和暴力视频,用于评估和比较。结果表明,LLM 通过实现更高的准确率和更低的误报率和漏报率,优于传统技术。这突出了将 LLM 集成到网站、社交媒体平台和视频共享服务中用于监管和内容审核的潜力。