摘要
arXiv:2502.08909v1 类别:交叉学科
摘要:事实核查对于应对不断增长的虚假信息至关重要。传统的事实核查依赖于手工分析来验证声明,但这种方式速度慢且资源密集。本研究通过在多种标签方案(二分类、三分类、五分类)下使用大型语言模型(LLMs)建立了自动事实核查(AFC)的基线比较,并在传统的声明验证中引入了分析、裁决分类和说明的结构化设置,以提供对实际声明的全面说明。我们使用证据检索的受限网络搜索收集了17,856条从PolitiFact(2007-2024)获取的声明,对Llama-3的不同规模模型(3B、8B、70B)进行了评估。我们利用TIGERScore作为参考自由评估指标来评分说明。我们的结果显示,未经微调的大型LLMs在分类准确性和说明质量方面始终优于小型LLMs。我们发现,在单次场景下,小型LLMs的表现与大型上下文尺寸的微调小型语言模型(SLMs)相当,而大型LLMs则始终超越它们。证据整合在所有模型中都提高了性能,大型LLMs受益最大。区分细微标签仍然具有挑战性,强调了进一步探索标签方案和证据对齐的必要性。我们的研究结果证明了使用LLMs增强检索的事实核查的潜力。