LLM2D
基于知识的社会媒体误信息检测注释者可靠性评估与样本加权
Efficient Annotator Reliability Assessment and Sample Weighting for Knowledge-Based Misinformation Detection on Social Media
作者: Owen Cook, Charlie Grimshaw, Ben Wu, Sophie Dillon, Jack Hicks, Luke Jones, Thomas Smith, Matyas Szert, Xingyi Song
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2410.14515v2

摘要

arXiv:2410.14515v2 通知类型: replace-cross 摘要:虚假信息在社交媒体上迅速传播,混淆了真相,针对潜在的易受伤害人群。为了有效减轻虚假信息的负面影响,必须首先准确检测虚假信息,然后才可应用缓解策略,如X的社区笔记,目前这一过程是手动进行的。本研究采用了基于知识的方法来检测虚假信息,将问题建模为自然语言推理问题类似。介绍了EffiARA注释框架,旨在利用注释者之间和注释者内部的一致性来理解每个注释者的可靠性,并影响基于注释者可靠性的大型语言模型分类训练。在评估EffiARA注释框架时,开发并公开发布了俄罗斯-乌克兰冲突知识型虚假信息分类数据集(RUC-MCD)。研究发现,使用注释者可靠性的样本加权效果最佳,利用了注释者之间和内部一致性以及软标签训练。使用Llama-3.2-1B进行分类时,宏F1得分为0.757,使用TwHIN-BERT-large时得分为0.740。