LLM2D

摘要

arXiv:2412.07338v3 宣告类型: replace-cross 摘要：AI生成的反毒性言辞提供了一种通过直接回复来应对网络毒性、促进文明对话的有希望且可扩展的策略。然而，目前的反毒性言辞缺乏适应性，未能针对具体的管理情境和相关的用户进行调整。我们提出并评估了多种生成定制化反毒性言辞的策略，这些策略能够适应管理情境并针对被管理用户进行个性化定制。我们指导了一个LLaMA2-13B模型生成反毒性言辞，并根据不同的上下文信息和微调策略进行了各种配置的实验。我们通过一项预先注册的混合设计众包实验收集的定量指标和人工评估来识别生成有说服力的反毒性言辞的配置。结果显示，上下文化反毒性言辞在适当性和说服力方面可以显著优于最先进的通用反毒性言辞，且不会牺牲其他特征。我们的研究结果还揭示了定量指标与人工评估之间的弱相关性，表明这些方法评估的是不同的方面，并突显了需要精细的评估方法的需求。上下文化AI生成的反毒性言辞的效果以及人工评价与算法评价之间的差异强调了在内容管理中增强人类与AI合作的重要性。