摘要
arXiv:2504.16604v1 交叉公告类型:cross
摘要:反制言论是对抗有害网络内容的关键策略,但扩大专家驱动的努力具有挑战性。大型语言模型(LLMs)提供了一种潜在的解决方案,尽管它们在对抗阴谋理论方面的使用研究不足。与仇恨言论不同,目前不存在将阴谋论评论与专家编写的反制言论配对的数据集。我们通过评估GPT-4o、Llama 3和Mistral在通过结构化提示应用源自心理研究的反制策略方面的有效性来弥补这一空白。我们的结果显示,这些模型通常生成的是通用的、重复的或表面的结果。此外,它们过度承认恐惧,并且经常幻想事实、来源或统计数据,使得它们在实际应用中的提示式使用成为问题。