LLM2D

摘要

arXiv:2502.08909v1 类别：交叉学科摘要：事实核查对于应对不断增长的虚假信息至关重要。传统的事实核查依赖于手工分析来验证声明，但这种方式速度慢且资源密集。本研究通过在多种标签方案（二分类、三分类、五分类）下使用大型语言模型（LLMs）建立了自动事实核查（AFC）的基线比较，并在传统的声明验证中引入了分析、裁决分类和说明的结构化设置，以提供对实际声明的全面说明。我们使用证据检索的受限网络搜索收集了17,856条从PolitiFact（2007-2024）获取的声明，对Llama-3的不同规模模型（3B、8B、70B）进行了评估。我们利用TIGERScore作为参考自由评估指标来评分说明。我们的结果显示，未经微调的大型LLMs在分类准确性和说明质量方面始终优于小型LLMs。我们发现，在单次场景下，小型LLMs的表现与大型上下文尺寸的微调小型语言模型（SLMs）相当，而大型LLMs则始终超越它们。证据整合在所有模型中都提高了性能，大型LLMs受益最大。区分细微标签仍然具有挑战性，强调了进一步探索标签方案和证据对齐的必要性。我们的研究结果证明了使用LLMs增强检索的事实核查的潜力。