LLM2D

摘要

arXiv:2504.14904v1 交叉类型：摘要：迅速增长的短视频平台（SVPs）在管理对用户心理健康有害的内容方面面临着重大挑战，特别是对于未成年人。此类内容在SVPs上的传播可能会导致严重的社会后果。尽管已经为此类内容的管理做出了大量努力，但现有的方法仍存在关键限制：（1）人工审查容易受到人为偏见的影响，并导致高昂的操作成本。（2）自动方法虽然高效，但缺乏对内容的细腻理解，导致准确性较低。（3）工业级的内容审核规定难以适应快速变化的趋势，因为其更新周期较长。本文中，我们通过使用真实用户/审阅者的反馈注释了首个SVP内容审核基准，以填补该领域的基准缺失。然后，我们在基准上评估了各种方法，验证了上述限制的存在。进一步地，我们提出了一种名为KuaiMod的共同法内容审核框架，以应对这些挑战。KuaiMod由三个部分组成：训练数据构建、离线适应和在线部署与精炼。利用大规模视觉语言模型（VLM）和链式思考（CoT）推理，KuaiMod能够基于稀疏用户反馈准确建模视频毒性和以快速更新速度和高准确性促进动态审核策略。离线实验和大规模在线A/B测试证明了KuaiMod的优势：KuaiMod在我们的基准测试中实现了最佳的审核性能。KuaiMod的部署将用户举报率降低了20%，其在视频推荐中的应用也显著提高了快手场景中的日活跃用户数（DAU）和APP使用时间（AUT）。我们已将基准公开在https://kuaimod.github.io。